Умные инвестиции: как обучение с подкреплением учитывает неприятие риска

Автор: Денис Аветисян

Новое исследование демонстрирует, как интеграция теории рекурсивной полезности в алгоритмы обучения с подкреплением позволяет создавать более эффективные стратегии распределения активов, учитывающие индивидуальные предпочтения инвестора.

"Покупай на слухах, продавай на новостях". А потом сиди с акциями никому не известной биотех-компании. Здесь мы про скучный, но рабочий фундаментал.

Бесплатный Телеграм канал

Оптимизация портфеля с использованием обучения с подкреплением и теории рекурсивной полезности для учета неприятия риска и межвременных предпочтений.

Традиционные модели оптимизации портфеля часто не учитывают сложные предпочтения инвесторов в отношении риска и времени. В работе ‘Portfolio Optimization under Recursive Utility via Reinforcement Learning’ исследуется возможность улучшения алгоритмов обучения с подкреплением для аллокации активов за счет интеграции рекурсивной полезности, учитывающей эти факторы. Показано, что приближение функции эквивалентности в рамках рекурсивной полезности с использованием метода Монте-Карло и применение ее в критике алгоритмов Actor-Critic (PPO, A2C) позволяет добиться улучшения показателей Шарпа, максимальной просадки и совокупной доходности на данных корейских ETF. Способны ли подобные подходы стать основой для создания более устойчивых и эффективных инвестиционных стратегий в условиях реального рынка?

За пределами традиционного портфельного анализа

Традиционные методы распределения активов в инвестиционном портфеле зачастую основываются на упрощенных, статичных предположениях относительно предпочтений инвесторов и поведения рынков. Эти предположения, например, о неизменности отношения к риску или о постоянстве ожидаемой доходности, могут значительно искажать реальную картину и приводить к неоптимальным результатам. В частности, игнорирование динамики рыночных условий и индивидуальных изменений в склонности к риску способно привести к занижению потенциальной прибыли или, наоборот, к неоправданно высоким потерям. В результате, портфель, сформированный на основе статических моделей, может оказаться недостаточно гибким для адаптации к меняющейся экономической ситуации и не в полной мере соответствовать целям инвестора, что подчеркивает необходимость более сложных и динамичных подходов к управлению активами.

Традиционные методы формирования инвестиционного портфеля часто оказываются неэффективными в условиях изменчивой рыночной конъюнктуры и индивидуальных предпочтений инвесторов. Статичные модели, не учитывающие колебания рисков и меняющуюся толерантность к ним, могут приводить к упущенной выгоде или неоправданным потерям. Возникает потребность в динамических подходах, способных адаптироваться к новым условиям, пересматривать структуру портфеля в режиме реального времени и учитывать индивидуальные особенности каждого инвестора. Такие методы, в отличие от устаревших, стремятся к оптимизации не только текущей доходности, но и долгосрочной стабильности, обеспечивая более устойчивый результат в различных экономических сценариях.

Одной из ключевых сложностей в построении эффективных инвестиционных стратегий является точное моделирование взаимосвязи между неприятием риска и межвременным замещением — предпочтениями инвестора относительно получения вознаграждения сейчас или в будущем. Традиционные модели часто упрощают эту связь, полагая, что инвесторы либо избегают риска любой ценой, либо готовы рисковать ради потенциально более высокой отдачи в будущем. Однако, реальное поведение гораздо сложнее: инвесторы могут демонстрировать разную степень неприятия риска в зависимости от временного горизонта и размера потенциальных потерь. Например, в краткосрочной перспективе инвестор может быть более склонен к избеганию риска, в то время как в долгосрочной перспективе — более терпим к колебаниям рынка. Точное понимание и моделирование этих динамических предпочтений, а также влияния β-параметров, отражающих степень межвременного замещения, необходимо для разработки портфелей, которые соответствуют индивидуальным целям и терпимости к риску, максимизируя при этом ожидаемую доходность.

Обучение с подкреплением и рекурсивные предпочтения

Обучение с подкреплением (Reinforcement Learning, RL) представляет собой эффективный подход к оптимизации распределения активов в портфеле, позволяющий напрямую использовать данные рынка и поведение инвесторов для выработки стратегий. В отличие от традиционных методов, требующих явного определения целевой функции и ограничений, RL алгоритмы способны обучаться на исторических данных, адаптируясь к изменяющимся рыночным условиям и предпочтениям инвесторов. Алгоритмы RL, такие как Q-learning или Policy Gradient, определяют оптимальные действия (покупку, продажу, удержание) для каждого временного шага, максимизируя ожидаемую суммарную прибыль или другую целевую функцию, определяемую на основе анализа данных и модели поведения инвесторов. Этот подход позволяет учитывать сложные взаимосвязи между активами, а также нелинейные зависимости между рыночными факторами и доходностью портфеля, что делает его особенно полезным в условиях высокой волатильности и неопределенности.

Интеграция рекурсивной теории полезности позволяет более точно моделировать предпочтения инвесторов, разделяя неприятие риска и межвременной выбор. Традиционные модели часто рассматривают эти аспекты совместно, что ограничивает их способность отражать реальное поведение. Рекурсивная полезность, в отличие от них, предполагает, что инвестор оценивает не только текущую полезность, но и ожидаемую полезность от будущих периодов, принимая во внимание дисконтирование будущих выгод. Это разделение позволяет более гибко учитывать, как инвестор реагирует на изменение рисков и как он предпочитает потреблять ресурсы во времени, что критически важно для построения реалистичных моделей портфельного управления. $V(s) = \max_{a} \{ R(s,a) + \beta E_{s' \sim P(s'|s,a)}[V(s')\}$ — уравнение, определяющее текущую ценность состояния, где β — коэффициент дисконтирования.

Концепция эквивалента достоверности (Certainty Equivalent) является ключевым элементом рекурсивной теории полезности и позволяет количественно оценить готовность инвестора к обмену риском на гарантированный доход. Эквивалент достоверности представляет собой сумму, которая делает инвестора безразличным между получением этой суммы с полной уверенностью и участием в рискованном предприятии с ожидаемой полезностью, равной этой сумме. Фактически, это максимальная сумма, которую инвестор готов заплатить, чтобы избежать риска, или минимальная сумма, которую он потребует в качестве премии за принятие риска. Величина эквивалента достоверности напрямую связана с параметрами функции полезности инвестора, в частности, с его отношением к риску и предпочтениями во времени, позволяя точно моделировать его инвестиционное поведение.

В основе данного подхода лежит уравнение Беллмана, которое определяет оптимальную ценность состояния в задаче обучения с подкреплением. Уравнение Беллмана представляет собой рекурсивное соотношение, связывающее ценность текущего состояния с немедленной наградой и дисконтированной ценностью следующего состояния. $V(s) = \max_{a} \{ R(s,a) + \gamma \sum_{s'} P(s'|s,a)V(s') \}$ , где $V(s)$ — ценность состояния s, a — действие, R — награда, γ — коэффициент дисконтирования, а P — вероятность перехода в состояние s’. Именно это уравнение служит основой для алгоритмов динамического программирования и обучения с подкреплением, направляя процесс поиска оптимальной стратегии путем итеративного обновления оценок ценности состояний.

Оптимизация с алгоритмами актор-критик

В рамках исследования были реализованы и сопоставлены два широко используемых алгоритма актор-критик: A2C (Advantage Actor-Critic) и PPO (Proximal Policy Optimization) для обучения оптимальным инвестиционным стратегиям. A2C использует параллельные акторы для сбора данных и централизованного критика для оценки ценности состояний и действий, что позволяет ускорить процесс обучения. PPO, в свою очередь, использует метод доверительной области для обновления политики, ограничивая изменение политики на каждом шаге, что повышает стабильность и надежность обучения. Сравнение этих алгоритмов проводилось на модельных данных финансовых рынков с целью выявления наиболее эффективного подхода к автоматизированному управлению инвестиционным портфелем.

Оба алгоритма, A2C и PPO, используют функцию преимущества (Advantage Function) для оценки относительной ценности различных действий в заданном состоянии. $A(s,a) = Q(s,a) - V(s)$ , где $Q(s,a)$ — ожидаемая суммарная награда от выполнения действия a в состоянии s, а $V(s)$ — ожидаемая суммарная награда от следования оптимальной политике, начиная с состояния s. Вычисление преимущества позволяет агенту определить, является ли конкретное действие лучше или хуже, чем среднее ожидаемое вознаграждение в данном состоянии, что значительно ускоряет процесс обучения, поскольку фокусирует усилия на действиях, которые действительно улучшают политику. Использование функции преимущества вместо прямой оценки ценности действий уменьшает дисперсию градиентов и способствует более стабильному обучению.

Внедрение предсказаний целевых значений $V_{target}$ в алгоритмы A2C и PPO позволяет стабилизировать процесс обучения и улучшить сходимость политики. Традиционные методы оценки ценности подвержены смещениям и высокой дисперсии, что может приводить к нестабильному обучению. Использование $V_{target}$ в качестве дополнительного сигнала позволяет снизить эти проблемы, предоставляя более точную оценку ожидаемой будущей награды. Это достигается путем прогнозирования ценности состояния, что служит основой для вычисления преимущества и, следовательно, для обновления политики. В результате, агент быстрее адаптируется к оптимальной стратегии инвестирования, а процесс обучения становится более надежным и предсказуемым.

Использование весов, зависящих от состояния (State-Dependent Weights), позволяет уточнить оценку преимущества (Advantage Estimation) в алгоритмах обучения с подкреплением. Вместо использования единого коэффициента для всех состояний рынка, данный подход применяет веса, динамически адаптирующиеся к текущей рыночной ситуации. Это достигается за счет учета характеристик состояния (например, волатильности, тренда) при расчете преимущества, что позволяет агенту более точно оценивать относительную ценность различных действий в конкретных рыночных условиях. В результате, алгоритм становится более чувствительным к нюансам рынка и способен более эффективно формировать оптимальную инвестиционную политику, улучшая сходимость и стабильность обучения.

Производительность и управление рисками на практике

Исследование эффективности разработанных стратегий распределения портфеля на основе обучения с подкреплением проводилось с использованием реальных данных Корейской фондовой биржи и инвестиций в биржевые инвестиционные фонды (ETF). Такой подход позволил оценить практическую применимость алгоритма в динамичных рыночных условиях и продемонстрировать его способность к адаптации к специфике конкретного финансового рынка. Анализ производился на историческом периоде, охватывающем различные фазы рыночного цикла, что обеспечило всестороннюю оценку устойчивости и эффективности предложенной методологии управления портфелем.

Оценка эффективности разработанного алгоритма портфельного управления проводилась с использованием ключевых показателей, таких как коэффициент Шарпа и максимальная просадка. Коэффициент Шарпа, измеряющий доходность с поправкой на риск, продемонстрировал способность алгоритма генерировать конкурентоспособную доходность при контролируемом уровне риска. В частности, наблюдалось значительное улучшение данного показателя, что свидетельствует о превосходстве стратегии над базовым подходом. Параллельно, анализ максимальной просадки — индикатора потенциальных потерь — выявил более эффективное управление рисками, поскольку алгоритм продемонстрировал меньшую подверженность значительным снижениям стоимости портфеля. Совокупность этих метрик подтверждает, что предложенный подход позволяет инвесторам достигать высоких финансовых результатов, одновременно минимизируя вероятность существенных убытков.

Анализ эффективности предложенной стратегии управления портфелем продемонстрировал статистически значимое улучшение коэффициента Шарпа, достигшего значения 2.07. Это существенно превосходит результат, полученный для наивной базовой стратегии, где данный показатель составил лишь 1.22. Такое увеличение коэффициента свидетельствует о более высокой доходности на единицу риска, что указывает на способность алгоритма генерировать более стабильные и привлекательные результаты для инвесторов. $\text{Sharpe Ratio} = \frac{R_p - R_f}{\sigma_p}$ — данный показатель позволяет оценить эффективность инвестиций с учетом риска, и полученное улучшение является ключевым аргументом в пользу применения предложенного подхода к управлению активами.

Анализ результатов работы алгоритма показал существенное снижение максимальной просадки портфеля — до 10.38% по сравнению с 12.26% для наивной базовой стратегии. Данный показатель, отражающий наибольшую потерю стоимости активов от пика до минимума, является ключевым индикатором эффективности управления рисками. Более низкое значение максимальной просадки свидетельствует о способности алгоритма более эффективно защищать капитал инвестора в периоды неблагоприятной рыночной конъюнктуры и демонстрирует превосходство разработанного подхода в обеспечении стабильности инвестиционного портфеля.

Результаты тестирования стратегии управления портфелем, основанной на обучении с подкреплением, продемонстрировали значительное превосходство над наивной базовой линией. За период исследования кумулятивная доходность составила 8.23%, что существенно выше отрицательных 6.47% у базовой стратегии. Данный показатель свидетельствует о способности алгоритма не только генерировать прибыль, но и эффективно использовать возможности рынка для увеличения капитала инвестора. Преимущество в доходности, полученное в ходе анализа данных корейского фондового рынка и инвестиций в ETF, подтверждает перспективность предложенного подхода к управлению финансовыми активами и его потенциал для получения более высоких результатов по сравнению с традиционными методами.

В процессе оптимизации портфеля, использование логарифмической функции богатства ( $Log Wealth$ ) обеспечивает значительную устойчивость вычислений и инвариантность к масштабу. В отличие от прямого суммирования прибыли, которое может приводить к переполнению или недополнению при работе с большими или малыми значениями, логарифмирование преобразует мультипликативные изменения в аддитивные. Это позволяет алгоритму более эффективно обрабатывать широкий диапазон цен и объемов торгов, избегая проблем с числовой точностью. Кроме того, инвариантность к масштабу означает, что оптимизация не зависит от абсолютного размера капитала, фокусируясь исключительно на относительных изменениях, что способствует более надежной и последовательной стратегии управления рисками.

Исследование демонстрирует, что оптимизация портфеля, основанная на теории рекурсивной полезности и методах обучения с подкреплением, позволяет создать более реалистичную модель поведения инвесторов. В конечном счете, все поведение — это просто баланс между страхом и надеждой, и данный подход позволяет учитывать не только стремление к прибыли, но и отвращение к риску во времени. Как заметил Ральф Уолдо Эмерсон: «Каждый человек есть свой собственный мир». Это особенно верно в финансах, где субъективные предпочтения и восприятие риска формируют инвестиционные решения, и модель, учитывающая эти факторы, способна обеспечить более точные прогнозы и эффективное управление капиталом.

Куда Далее?

Представленная работа, хотя и демонстрирует улучшение в оптимизации портфеля за счёт интеграции рекурсивной полезности, лишь подчёркивает фундаментальную проблему: экономика — это не поиск истины, а попытка формализовать иллюзию контроля. Попытка встроить более «реалистичную» модель неприятия риска — это как добавить детализацию к карте мира, нарисованной ребёнком. Картина станет сложнее, но не ближе к реальности. Следующим шагом, вероятно, станет усложнение самой модели рекурсивной полезности, но важно помнить, что любое усложнение — это лишь новая форма упрощения.

Более плодотворным направлением представляется исследование не столько оптимальных стратегий, сколько механизмов, лежащих в основе иррационального поведения. Почему агенты склонны переоценивать контроль над будущим? Как когнитивные искажения влияют на принятие инвестиционных решений? Ответы на эти вопросы, возможно, потребуют обращения к психологии и нейробиологии, а не к традиционным экономическим моделям.

В конечном счёте, задача оптимизации портфеля — это метафора. Она отражает наше стремление предсказать будущее и избежать неопределённости. Но будущее не поддаётся предсказанию, а неопределённость — это неотъемлемая часть существования. Возможно, вместо того, чтобы искать оптимальные стратегии, стоит научиться жить с неопределённостью и принимать её как данность.

Оригинал статьи: https://arxiv.org/pdf/2603.22880.pdf

Связаться с автором: https://www.linkedin.com/in/avetisyan/

Смотрите также:

2026-03-25 07:24