Ключевые слова: глубокое обучение с подкреплением, оптимизация портфеля, марковский процесс принятия решений, PPO, DDPG, SAC, режимная зависимость
Глубокое обучение с подкреплением для оптимизации инвестиционного портфеля: применение в управлении активами энергетического сектора
УДК 004.852+336.761
В данной работе проводится рассмотрение применения глубокого обучения с подкреплением в задачах динамической оптимизации инвестиционного портфеля применительно к активам энергетического сектора. Задача управления портфелем формализована как марковский процесс принятия решений (MDP). Подробным образом анализируются алгоритмы PPO, DDPG и SAC с акцентом на механику, стоящую за математическими различиями. В ходе рассмотрения показано, что не существует универсально лучшего алгоритма: A2C и PPO систематически превосходят SAC на трендовых рынках (накопленный прирост +12,5% против +4,5%), тогда как SAC лидирует в периоды кризисной волатильности (коэффициент Шарпа 1,18 против 0,61 у Buy & Hold; максимальная просадка −19,3% против −38,2%). Вместе с тем рассматриваются вопросы интерпретируемости посредством SHAP и LIME, нестационарность финансовой среды и практические барьеры между бэктестированием и реальной торговлей.
1. Sutton R.S. Reinforcement Learning: An Introduction / R.S. Sutton, A.G. Barto. – 2nd ed. – Cambridge, MA: MIT Press, 2018. – 552 p.
2. A Review of Reinforcement Learning in Financial Applications / Y. Bai, Y. Gao, R. Wan [et al.] // arXiv [Электронный ресурс]. – URL: https://arxiv.org/abs/2411.12746 (дата обращения: 25.02.2026).
3. Proximal Policy Optimization Algorithms / J. Schulman, F. Wolski, P. Dhariwal [et al.] // arXiv [Электронный ресурс]. – URL: https://arxiv.org/abs/1707.06347 (дата обращения: 19.02.2026).
4. Soft Actor-Critic: Off-Policy Maximum Entropy Deep Reinforcement Learning with a Stochastic Actor / T. Haarnoja, A. Zhou, P. Abbeel, S. Levine // Proceedings of the 35th International Conference on Machine Learning, ICML 2018, Stockholmsmässan, Stockholm, Sweden, 10–15 July 2018. – PMLR, 2018. – P. 1856–1865.
5. Deep Reinforcement Learning Strategies in Finance: Insights into Asset Holding, Trading Behavior, and Purchase Diversity / A. Mohammadshafie, A. Mirzaeinia, H. Jumakhan, A. Mirzaeinia // arXiv [Электронный ресурс]. – URL: https://arxiv.org/abs/2407.09557 (дата обращения: 16.02.2026).
6. De-la-Rica-Escudero A. Explainable Post Hoc Portfolio Management Financial Policy of a Deep Reinforcement Learning Agent / A. de-la-Rica-Escudero, E.C. Garrido-Merchán, M. Coronado-Vaca // PLoS ONE. – 2025. – Vol. 20, No. 1. – URL: https://doi.org/10.1371/journal.pone.0315528 (дата обращения: 16.02.2026).
7. Ndikum Ph. Advancing Investment Frontiers: Industry-grade Deep Reinforcement Learning for Portfolio Optimization / Ph. Ndikum, S. Ndikum // arXiv [Электронный ресурс]. – URL: https://arxiv.org/abs/2403.07916 (дата обращения: 08.02.2026).
Ключевые слова: глубокое обучение с подкреплением, оптимизация портфеля, марковский процесс принятия решений, PPO, DDPG, SAC, режимная зависимость
Для цитирования: Кошелев Н.М. , Тарлыков А.В. , Преображенский А.П. , Глубокое обучение с подкреплением для оптимизации инвестиционного портфеля: применение в управлении активами энергетического сектора. Вестник Воронежского института высоких технологий. 2026;20(1). Доступно по: https://vestnikvivt.ru/ru/journal/pdf?id=1468
Поступила в редакцию 11.03.2026
Поступила после рецензирования 30.03.2026
Принята к публикации 30.03.2026
Опубликована 31.03.2026