Глубокое обучение с подкреплением для оптимизации инвестиционного портфеля: применение в управлении активами энергетического сектора

Кошелев Н.М. , Тарлыков А.В. , Преображенский А.П.

УДК 004.852+336.761

Аннотация
Список литературы
Об авторах

В данной работе проводится рассмотрение применения глубокого обучения с подкреплением в задачах динамической оптимизации инвестиционного портфеля применительно к активам энергетического сектора. Задача управления портфелем формализована как марковский процесс принятия решений (MDP). Подробным образом анализируются алгоритмы PPO, DDPG и SAC с акцентом на механику, стоящую за математическими различиями. В ходе рассмотрения показано, что не существует универсально лучшего алгоритма: A2C и PPO систематически превосходят SAC на трендовых рынках (накопленный прирост +12,5% против +4,5%), тогда как SAC лидирует в периоды кризисной волатильности (коэффициент Шарпа 1,18 против 0,61 у Buy & Hold; максимальная просадка −19,3% против −38,2%). Вместе с тем рассматриваются вопросы интерпретируемости посредством SHAP и LIME, нестационарность финансовой среды и практические барьеры между бэктестированием и реальной торговлей.

1. Sutton R.S. Reinforcement Learning: An Introduction / R.S. Sutton, A.G. Barto. – 2nd ed. – Cambridge, MA: MIT Press, 2018. – 552 p.

2. A Review of Reinforcement Learning in Financial Applications / Y. Bai, Y. Gao, R. Wan [et al.] // arXiv [Электронный ресурс]. – URL: https://arxiv.org/abs/2411.12746 (дата обращения: 25.02.2026).

3. Proximal Policy Optimization Algorithms / J. Schulman, F. Wolski, P. Dhariwal [et al.] // arXiv [Электронный ресурс]. – URL: https://arxiv.org/abs/1707.06347 (дата обращения: 19.02.2026).

4. Soft Actor-Critic: Off-Policy Maximum Entropy Deep Reinforcement Learning with a Stochastic Actor / T. Haarnoja, A. Zhou, P. Abbeel, S. Levine // Proceedings of the 35th International Conference on Machine Learning, ICML 2018, Stockholmsmässan, Stockholm, Sweden, 10–15 July 2018. – PMLR, 2018. – P. 1856–1865.

5. Deep Reinforcement Learning Strategies in Finance: Insights into Asset Holding, Trading Behavior, and Purchase Diversity / A. Mohammadshafie, A. Mirzaeinia, H. Jumakhan, A. Mirzaeinia // arXiv [Электронный ресурс]. – URL: https://arxiv.org/abs/2407.09557 (дата обращения: 16.02.2026).

6. De-la-Rica-Escudero A. Explainable Post Hoc Portfolio Management Financial Policy of a Deep Reinforcement Learning Agent / A. de-la-Rica-Escudero, E.C. Garrido-Merchán, M. Coronado-Vaca // PLoS ONE. – 2025. – Vol. 20, No. 1. – URL: https://doi.org/10.1371/journal.pone.0315528 (дата обращения: 16.02.2026).

7. Ndikum Ph. Advancing Investment Frontiers: Industry-grade Deep Reinforcement Learning for Portfolio Optimization / Ph. Ndikum, S. Ndikum // arXiv [Электронный ресурс]. – URL: https://arxiv.org/abs/2403.07916 (дата обращения: 08.02.2026).

Кошелев Никита Михайлович

Воронежский институт высоких технологий

Воронеж, Россия

Тарлыков Александр Вячеславович

Воронежский институт высоких технологий

Воронеж, Россия

Преображенский Андрей Петрович
Доктор технических наук, профессор

Воронежский институт высоких технологий

Воронеж, Россия

Ключевые слова: глубокое обучение с подкреплением, оптимизация портфеля, марковский процесс принятия решений, PPO, DDPG, SAC, режимная зависимость

Для цитирования: Кошелев Н.М. , Тарлыков А.В. , Преображенский А.П. , Глубокое обучение с подкреплением для оптимизации инвестиционного портфеля: применение в управлении активами энергетического сектора. Вестник Воронежского института высоких технологий. 2026;20(1). Доступно по: https://vestnikvivt.ru/ru/journal/pdf?id=1468

1067

Полный текст статьи в PDF

Поступила в редакцию 11.03.2026

Поступила после рецензирования 30.03.2026

Принята к публикации 30.03.2026

Опубликована 31.03.2026