Рынок в Переменах: Как Машинное Обучение Управляет Инвестициями

Автор: Денис Аветисян

Новый подход к управлению портфелем активов объединяет скрытые марковские модели и обучение с подкреплением, позволяя адаптироваться к меняющимся рыночным условиям.

"Покупай на слухах, продавай на новостях". А потом сиди с акциями никому не известной биотех-компании. Здесь мы про скучный, но рабочий фундаментал.

Бесплатный Телеграм канал

Исследование демонстрирует превосходство стратегий, основанных на сочетании скрытых марковских моделей и обучения с подкреплением, над традиционными подходами к распределению активов.

Несмотря на широкое использование моделей управления портфелем, адаптация к меняющимся рыночным условиям остается сложной задачей. В работе ‘Regime-Based Portfolio Allocation Using Hidden Markov Models and Reinforcement Learning’ предложен фреймворк, объединяющий скрытые марковские модели и обучение с подкреплением для динамического распределения активов между акциями, долгосрочными облигациями и золотом. Полученные результаты демонстрируют, что комбинированный подход превосходит пассивные стратегии и обеспечивает повышение доходности с учетом риска за счет адаптации к различным рыночным режимам. Возможно ли дальнейшее усовершенствование данной системы за счет интеграции других алгоритмов машинного обучения и расширения набора анализируемых активов?

Рыночные Режимы: Зеркало Нестабильности

Традиционные стратегии формирования портфеля часто оказываются неэффективными в условиях меняющихся режимов рыночной волатильности. Исследования показывают, что подходы, основанные на исторических данных и предположениях о стабильности, могут приводить к значительному снижению доходности в периоды резких колебаний рынка. Это связано с тем, что стандартные модели рисков, как правило, не учитывают возможность перехода между различными состояниями волатильности — от периодов спокойствия до фаз высокой турбулентности. В результате, портфели, оптимизированные для одного режима, могут оказаться уязвимыми в другом, что приводит к неоптимальным результатам и повышенным рискам для инвесторов. Эффективное управление портфелем требует адаптивности и способности оперативно реагировать на изменения рыночной конъюнктуры.

Выявление и своевременная реакция на скрытые состояния рынков имеет решающее значение для эффективного управления рисками и максимизации доходности портфеля. Исследования показывают, что финансовые рынки не являются статичными, а постоянно переключаются между различными режимами волатильности, характеризующимися отличающимися статистическими свойствами. Способность обнаруживать эти смены режимов — от периодов стабильности к периодам повышенной турбулентности — позволяет инвесторам адаптировать свои стратегии, снижая подверженность потерям в неблагоприятных условиях и извлекая выгоду из благоприятных. Активное управление рисками, основанное на анализе скрытых состояний рынка, позволяет не только защитить капитал, но и значительно повысить потенциальную доходность портфеля, используя возможности, которые возникают в динамично меняющейся рыночной среде.

Скрытые Состояния: Раскрывая Невидимое

Скрытая марковская модель (СММ) представляет собой мощный инструмент для анализа временных рядов, в которых базовые состояния системы не поддаются непосредственному наблюдению. В отличие от моделей, работающих непосредственно с наблюдаемыми данными, СММ предполагает существование скрытых состояний, определяющих вероятностное распределение наблюдаемых событий. Это позволяет моделировать сложные системы, где видимые изменения являются лишь результатом внутренних, невидимых процессов. Например, в финансовом моделировании скрытые состояния могут отражать различные режимы рынка (бычий, медвежий, боковой), а наблюдаемые данные — цены акций. СММ позволяет оценивать вероятности перехода между этими скрытыми состояниями и, следовательно, прогнозировать будущее поведение системы, даже если прямые наблюдения недостаточны или зашумлены.

Свойство Маркова, лежащее в основе скрытых марковских моделей (СММ), предполагает, что вероятность перехода в следующее скрытое состояние зависит исключительно от текущего состояния, а не от всей предшествующей истории. Это упрощение позволяет оценивать вероятности переходов между состояниями $P(S_{t+1} | S_t)$ на основе наблюдаемых данных о рыночном поведении. Анализ этих вероятностей переходов позволяет выявлять закономерности и тенденции, например, вероятность перехода от «бычьего» рынка к «медвежьему» или наоборот, предоставляя ценную информацию для прогнозирования и управления рисками. Оценка вероятностей переходов осуществляется на основе статистического анализа исторических данных и позволяет построить матрицу переходов, описывающую динамику скрытых состояний.

Для калибровки Скрытой Марковской Модели (СММ) на исторических данных широко используются методы максимального правдоподобия (Maximum Likelihood Estimation, MLE) и алгоритм EM (Expectation-Maximization). MLE предполагает нахождение параметров модели, максимизирующих вероятность наблюдаемой последовательности данных. Алгоритм EM является итеративным процессом, состоящим из двух шагов: на шаге E вычисляются вероятности нахождения в каждом скрытом состоянии, учитывая текущие оценки параметров, а на шаге M — переоцениваются параметры модели для максимизации правдоподобия с учетом вычисленных вероятностей. Повторение этих шагов приводит к сходимости параметров, обеспечивая наилучшее соответствие модели наблюдаемым данным и позволяя оценивать вероятности переходов между скрытыми состояниями и вероятности эмиссии наблюдаемых данных из каждого состояния. $P(O|λ) = Π_{i=1}^T P(o_i|q_i, λ)$ , где O — наблюдаемая последовательность, λ — параметры модели, а $q_i$ — скрытое состояние в момент времени i.

Обучение с Подкреплением: Динамическая Адаптация

Обучение с подкреплением (RL) предоставляет возможность оптимизировать распределение активов в портфеле на основе анализа данных и в рамках определенных рыночных режимов. В отличие от традиционных методов, требующих предварительных предположений о структуре рынка, RL использует исторические данные для адаптации стратегии в реальном времени. Алгоритмы RL, анализируя последовательность состояний рынка, выявляют закономерности и формируют оптимальную политику распределения капитала, максимизируя доходность с учетом заданного уровня риска. Такой подход позволяет учитывать динамику рынка и автоматически корректировать состав портфеля в ответ на изменяющиеся условия, обеспечивая более гибкое и эффективное управление активами.

В рамках обучения с подкреплением, агент использует итерацию по таблицам состояний для определения оптимальных весов активов — включая SPY, TLT и GLD — в зависимости от текущего скрытого состояния рынка. Этот метод предполагает дискретизацию пространства состояний и построение таблицы, где каждая ячейка представляет собой оптимальное распределение активов для конкретного состояния. Агент последовательно улучшает эту таблицу, оценивая ценность каждого состояния и обновляя веса активов для максимизации ожидаемой долгосрочной прибыли. Используемые активы (SPY, TLT, GLD) представляют собой индекс S&P 500, долгосрочные казначейские облигации и золото, соответственно, и их веса определяются агентом для каждой комбинации состояний рынка.

Уравнение Беллмана оптимальности является основой процесса обучения агента, направленного на максимизацию долгосрочной доходности с учетом управления рисками. В рамках обучения с подкреплением, уравнение $V(s) = \max_a \{ R(s,a) + \gamma \sum_{s'} P(s'|s,a) V(s') \}$ определяет оптимальную ценность состояния s, как максимальную дисконтированную сумму будущих вознаграждений, полученных при выборе действия a в состоянии s и переходе в следующее состояние s’. Параметр γ (гамма) представляет собой коэффициент дисконтирования, определяющий важность будущих вознаграждений по сравнению с текущими, а P(s’|s,a) — вероятность перехода в состояние s’ при выполнении действия a в состоянии s. Итеративное применение уравнения Беллмана позволяет агенту последовательно уточнять оценки оптимальной ценности каждого состояния, стремясь к достижению максимальной суммарной доходности с учетом заданного уровня риска.

Уточнение Оценки Состояния: Повышение Надежности

Фильтр Хаммильтона и сглаживатель РТС (RTS Backward Smoother) представляют собой рекурсивные алгоритмы, предназначенные для оценки состояния скрытой марковской модели (Hidden Markov Model) на всех временных точках. Алгоритм фильтра Хаммильтона выполняет оценку состояния на основе доступной на текущий момент информации, обновляя апостериорное распределение вероятностей состояния системы. Сглаживатель РТС, в свою очередь, использует всю доступную последовательность наблюдений для уточнения оценки состояния на всех предыдущих временных точках, обеспечивая более точную реконструкцию состояния системы в ретроспективе. Эти алгоритмы эффективно решают задачу оценки состояния в условиях неопределенности, что критически важно для анализа временных рядов и прогнозирования.

Использование фильтра Хаммильтона и обратного сглаживающего фильтра RTS позволяет получить рекурсивные оценки состояния скрытой марковской модели во всех точках времени. Это обеспечивает более полное представление о рыночных режимах, что, в свою очередь, повышает точность принимаемых решений по распределению активов в портфеле. Улучшенная идентификация текущего рыночного режима позволяет динамически корректировать состав портфеля, оптимизируя соотношение риска и доходности в различных экономических условиях. В частности, более точное определение смены режимов позволяет своевременно переходить от стратегий, ориентированных на рост, к защитным, и наоборот, что снижает волатильность и увеличивает потенциальную доходность портфеля.

Критерии выбора модели, такие как информационный критерий Акаике (AIC) и байесовский информационный критерий (BIC), играют ключевую роль в определении оптимального количества скрытых состояний в моделях скрытых марковских процессов. AIC оценивает относительную пригодность модели, штрафуя за сложность, в то время как BIC обеспечивает более строгий штраф, что особенно важно при ограниченном объеме данных. Неправильный выбор количества состояний может привести к переобучению (модель слишком хорошо адаптируется к обучающим данным и плохо обобщается) или недообучению (модель слишком проста, чтобы адекватно описать данные). Использование AIC/BIC позволяет найти баланс между сложностью модели и ее соответствием данным, обеспечивая более надежные и точные оценки состояния рынка и, как следствие, улучшенное принятие решений по распределению активов.

Адаптация к Волатильности: Динамичное Инвестиционное Будущее

Разработанная стратегия динамического распределения активов объединяет скрытые марковские модели (Hidden Markov Models) и обучение с подкреплением (Reinforcement Learning) для адаптации к меняющейся рыночной конъюнктуре. Скрытые марковские модели позволяют идентифицировать различные рыночные режимы — например, периоды роста, стабильности и спада — даже если текущее состояние рынка не очевидно. Обучение с подкреплением, в свою очередь, использует эту информацию для принятия оптимальных инвестиционных решений, корректируя состав портфеля в режиме реального времени. В результате, система способна не просто реагировать на изменения, но и предвидеть их, стремясь к максимальной доходности при заданном уровне риска и обеспечивая более устойчивое поведение портфеля в условиях повышенной волатильности.

В финансовом моделировании использование логарифмических доходностей, в отличие от простых процентных изменений, позволяет более точно отражать динамику цен активов, особенно в периоды повышенной волатильности. Логарифмическая доходность, рассчитываемая как $ln(P_t / P_{t-1})$ , где $P_t$ — цена актива в момент времени t, обладает рядом преимуществ. Во-первых, она симметрична, что позволяет избежать искажений, возникающих при работе с процентными изменениями, когда положительные и отрицательные изменения не обрабатываются одинаково. Во-вторых, аддитивность логарифмических доходностей упрощает расчет суммарной доходности за несколько периодов, что критически важно для долгосрочного анализа. В-третьих, в условиях высокой волатильности, когда процентные изменения могут быть значительно искажены из-за экстремальных значений, логарифмические доходности обеспечивают более стабильную и надежную оценку риска и доходности, что позволяет создавать более эффективные стратегии управления портфелем.

Исследование демонстрирует, что разработанная стратегия динамического распределения активов, основанная на трехстадийной модели скрытых марковских процессов и обучении с подкреплением, последовательно превосходит по эффективности как статические стратегии ротации, так и подход «купи и держи». В ходе вневыборочного тестирования, данный подход демонстрирует более высокий коэффициент Шарпа, что указывает на улучшенную доходность с поправкой на риск. Кроме того, стратегия обучения с подкреплением характеризуется меньшими просадками по сравнению с альтернативными стратегиями ротации «Top-1» и «60/40», а также показывает среднюю доходность в кризисном состоянии для SPY на уровне -0.0047, что свидетельствует о её способности смягчать потери в периоды рыночной нестабильности.

Исследование, представленное в данной работе, стремится к построению адаптивной стратегии распределения активов, используя возможности скрытых марковских моделей и обучения с подкреплением. Этот подход особенно интересен, поскольку он признает, что финансовые рынки не являются статичными, а подвержены изменениям режимов. В этом контексте, слова Мэри Уолстонкрафт: «Женщины должны быть рациональными существами, и, следовательно, должны быть обучены разумным образом», находят неожиданное отражение. Ведь подобно тому, как образование должно адаптироваться к индивидуальным потребностям, так и стратегия инвестирования должна адаптироваться к меняющимся условиям рынка. Применение обучения с подкреплением позволяет системе учиться на опыте и корректировать свои действия, подобно тому, как разумный человек корректирует свои убеждения на основе новых знаний. Подобная адаптивность является ключом к успеху в любой сложной системе, будь то образование или финансовые рынки.

Куда же дальше?

Представленная работа, подобно любому другому шагу в познании хаоса, лишь подчеркивает глубину нерешенных вопросов. Сочетание скрытых марковских моделей и обучения с подкреплением, безусловно, демонстрирует адаптивность, но адаптивность к чему? К иллюзии предсказуемости, которую рынок так щедро дарит, чтобы затем отнять её обратно. Когда мы говорим об «оптимизации», космос улыбается и поглощает нас снова.

Следующий этап, вероятно, лежит в плоскости более сложных моделей переключения режимов, учитывающих не только волатильность, но и структурные изменения в экономических системах. Однако, стоит помнить, что любая модель — это лишь упрощение реальности. И чем сложнее модель, тем больше вероятность, что она отражает не саму реальность, а лишь наши собственные предубеждения. Мы не покоряем пространство — мы наблюдаем, как оно покоряет нас.

Истинным вызовом остается не создание более точных алгоритмов, а развитие критического мышления, способного отличать сигнал от шума, а истинные закономерности от случайных совпадений. Ведь в конечном итоге, даже самая совершенная стратегия аллокации активов окажется бессильной перед лицом фундаментальной неопределенности бытия. Чёрная дыра — это не просто объект, это зеркало нашей гордости и заблуждений.

Оригинал статьи: https://arxiv.org/pdf/2605.27848.pdf

Связаться с автором: https://www.linkedin.com/in/avetisyan/

Смотрите также:

2026-05-28 14:19