Поиск схожих активов: новый взгляд на прогнозирование доходности

Автор: Денис Аветисян


Исследователи предлагают инновационный метод обучения представлений финансовых временных рядов, позволяющий более эффективно находить активы, коррелирующие в будущем.

"Покупай на слухах, продавай на новостях". А потом сиди с акциями никому не известной биотех-компании. Здесь мы про скучный, но рабочий фундаментал.

Бесплатный Телеграм канал
Визуализация вложений, полученных методом FASCL, демонстрирует согласованный градиент от отрицательной (синий цвет) к положительной (красный цвет) будущей кумулятивной доходности на горизонтах в 1, 5, 20 и 60 дней, что указывает на то, что изученные представления эффективно захватывают многомасштабную структуру будущего поведения.
Визуализация вложений, полученных методом FASCL, демонстрирует согласованный градиент от отрицательной (синий цвет) к положительной (красный цвет) будущей кумулятивной доходности на горизонтах в 1, 5, 20 и 60 дней, что указывает на то, что изученные представления эффективно захватывают многомасштабную структуру будущего поведения.

В статье представлена методика FASCL, использующая мягкий контрастивный метод обучения для выравнивания векторных представлений активов с будущими корреляциями доходности.

Поиск схожих активов — ключевая задача количественного инвестирования, однако существующие подходы, ориентированные на исторические ценовые паттерны, не гарантируют предсказания будущей динамики. В данной работе, посвященной ‘Cross-Sectional Asset Retrieval via Future-Aligned Soft Contrastive Learning’, предложен новый фреймворк FASCL, использующий обучение с мягким контрастом для выравнивания векторных представлений активов с корреляциями будущей доходности. Эксперименты на данных 4229 американских акций показали, что FASCL последовательно превосходит существующие методы по всем метрикам, оценивающим схожесть будущих траекторий активов. Сможет ли этот подход существенно улучшить качество портфельных стратегий и снизить инвестиционные риски?


Ограничения Традиционного Анализа Временных Рядов

Традиционные методы анализа временных рядов, такие как прогностические модели и корреляция Пирсона, зачастую оказываются неспособны уловить сложные, нелинейные взаимосвязи между финансовыми активами. Эти методы, разработанные для работы с относительно простыми линейными зависимостями, испытывают трудности при анализе рынков, где поведение активов определяется множеством факторов, взаимодействующих непредсказуемым образом. Например, влияние новостей, настроений инвесторов или макроэкономических показателей редко проявляется в виде простой линейной зависимости, и попытки аппроксимировать такие связи линейными моделями приводят к существенным погрешностям в прогнозах и искажению представления о реальных рыночных процессах. В результате, полагаясь исключительно на традиционные подходы, аналитики рискуют упустить важные сигналы и принять неоптимальные инвестиционные решения.

Анализ финансовых данных традиционными методами часто сталкивается с трудностями из-за их высокой размерности и зашумленности. Огромное количество факторов, влияющих на стоимость активов, и непредсказуемые колебания приводят к тому, что стандартные алгоритмы не могут эффективно выделить значимые закономерности. В результате формируются неоптимальные векторные представления (embeddings), которые не точно отражают истинные взаимосвязи между активами. Это, в свою очередь, снижает эффективность последующего анализа, прогнозирования и принятия инвестиционных решений, поскольку модели оперируют неполной и искаженной информацией. Использование более сложных методов, способных к адаптации к высокой размерности и фильтрации шумов, становится необходимым условием для получения надежных и полезных результатов.

Несмотря на значительный прогресс в области самообучающихся моделей для анализа временных рядов, существующие подходы демонстрируют ограниченную эффективность в прогнозировании поведения финансовых активов. Традиционные методы, основанные на автоэнкодерах или контрастивном обучении, зачастую не способны улавливать сложные взаимосвязи и нелинейные зависимости, характерные для финансовых рынков. Это приводит к тому, что модели, обученные на исторических данных, недостаточно точно предсказывают будущие изменения цен и волатильности, особенно в периоды высокой неопределенности или резких рыночных колебаний. Несмотря на способность извлекать полезные представления из неразмеченных данных, существующие алгоритмы часто упускают критически важные факторы, определяющие динамику активов, и не учитывают влияние внешних событий или рыночных настроений. В результате, точность прогнозирования остается недостаточной для практического применения в торговле или управлении рисками, подчеркивая необходимость разработки более совершенных методов самообучения, способных адекватно моделировать сложность финансовых временных рядов.

Визуализация t-SNE, раскрашенная по отраслевым группам GICS и членству в тематических ETF, показывает, что активы из одной отрасли группируются вместе без использования отраслевых меток в процессе обучения, а тематические ETF, такие как полупроводники (SOXX), банковский сектор (KBE) и
Визуализация t-SNE, раскрашенная по отраслевым группам GICS и членству в тематических ETF, показывает, что активы из одной отрасли группируются вместе без использования отраслевых меток в процессе обучения, а тематические ETF, такие как полупроводники (SOXX), банковский сектор (KBE) и «Великолепная семерка», формируют тесные подгруппы, пересекающие традиционные отраслевые границы, подтверждая, что FASCL выявляет детализированные поведенческие группы, выходящие за рамки статических классификаций.

FASCL: Корреляционно-Согласованный Фреймворк

В основе FASCL лежит использование Transformer Encoder для генерации векторных представлений (embeddings) активов на основе данных временных рядов. Архитектура Transformer позволяет эффективно учитывать временные зависимости в данных, в отличие от традиционных методов, игнорирующих последовательность. Encoder обрабатывает данные временных рядов, преобразуя их в плотные векторные представления, которые кодируют информацию о динамике актива во времени. Это достигается за счет механизма self-attention, позволяющего модели взвешивать важность различных моментов времени при формировании представления актива. Полученные embeddings служат основой для дальнейшего анализа корреляций и построения более точных моделей.

В основе FASCL лежит техника Patch Embedding, которая предполагает разделение временных рядов на сегменты фиксированной длины. Этот подход позволяет снизить вычислительную сложность обработки данных Transformer Encoder. Вместо обработки всего временного ряда целиком, энкодер обрабатывает отдельные сегменты (патчи), что значительно уменьшает объем вычислений и позволяет эффективно улавливать локальные зависимости во временных данных. Размер патчей является гиперпараметром модели, определяющим гранулярность анализа временных рядов и баланс между вычислительной эффективностью и точностью представления данных.

В рамках FASCL, вычисленные эмбеддинги активов подвергаются выравниванию с корреляциями будущей доходности посредством функции потерь Soft Contrastive Loss. Этот процесс направлен на минимизацию расстояния между представлениями активов, демонстрирующих высокую положительную корреляцию в будущих периодах, и максимизацию расстояния между представлениями некоррелированных активов. Soft Contrastive Loss использует пары активов и штрафует модель за расхождения в их эмбеддингах, если наблюдается высокая корреляция между их будущей доходностью. Эффективно, это позволяет модели обучаться, чтобы схожие активы располагались ближе друг к другу в пространстве эмбеддингов, отражая их статистическую взаимосвязь.

Фреймворк FASCL стремится к более глубокому пониманию структуры рынка, чем простое представление данных. Он использует пространство встраиваний (embedding space) для кодирования взаимосвязей между активами, позволяя анализировать и моделировать рыночные взаимозависимости. В отличие от традиционных методов, фокусирующихся на отдельных активах, FASCL создает векторное представление рынка, где близость между векторами отражает корреляцию между активами. Такое представление позволяет выявлять скрытые связи, кластеризовать активы по схожим характеристикам и прогнозировать изменения рыночной динамики, что является ключевым для разработки более эффективных инвестиционных стратегий и систем управления рисками.

Визуализация t-SNE вложений FASCL на тестовом наборе демонстрирует, что модель способна разделять данные по будущей 5-дневной доходности, а также по отраслевой принадлежности (GICS) и членству в тематических ETF, при этом обучение проводилось без использования каких-либо отраслевых, промышленных или ETF-меток.
Визуализация t-SNE вложений FASCL на тестовом наборе демонстрирует, что модель способна разделять данные по будущей 5-дневной доходности, а также по отраслевой принадлежности (GICS) и членству в тематических ETF, при этом обучение проводилось без использования каких-либо отраслевых, промышленных или ETF-меток.

Подтверждение Эффективности FASCL: Результаты и Согласованность

Модель FASCL демонстрирует превосходящие результаты по сравнению с базовыми методами, такими как Dynamic Time Warping и традиционными моделями прогнозирования, в задачах оценки будущих корреляций доходности. В частности, FASCL достигает показателя Future Return Correlation (FRC@K) равного 0.3837 при K=1, что на 12% выше, чем у метода, занявшего второе место (Pearson correlation). Данный результат указывает на более точное выявление активов с высокой вероятностью ко-движения в будущем, что критически важно для построения эффективных инвестиционных стратегий и управления рисками.

Качество полученных векторных представлений (embeddings) было подтверждено с использованием метрик Trend Consistency и Sector Precision, демонстрирующих улучшенное соответствие динамике рынка. В частности, FASCL достигает показателя Future Return Correlation (FRC@K) равного 0.3837 при K=1, что на 12% выше, чем у метода, занявшего второе место (корреляция Пирсона). Данный результат указывает на более высокую способность FASCL предсказывать будущие корреляции доходности активов по сравнению с альтернативными подходами.

В ходе проведения сравнительных исследований, включая сопоставление с моделью Multi-Horizon Return Regression, подтверждена значимость использования контрастивной функции потерь и выбранных стратегий формирования эмбеддингов в рамках FASCL. Анализ показал, что исключение контрастивной функции потерь приводит к снижению качества обучения эмбеддингов и ухудшению способности модели улавливать корреляции будущей доходности. Выбранные стратегии эмбеддингов, в свою очередь, обеспечивают эффективное представление данных и позволяют модели более точно идентифицировать активы с похожим поведением, что подтверждается метриками Trend Consistency и Sector Precision.

В архитектуре FASCL для агрегации патч-эмбеддингов эффективно используется метод усреднения (Mean Pooling). Это позволяет получить компактное представление данных, сохраняя ключевую информацию о динамике активов. Подтверждением эффективности данного подхода является минимальное значение ошибки отслеживания (Tracking Error) при всех значениях K, что указывает на более тесную ко-двигацию между запрошенным активом и отобранными аналогами. В частности, показатель согласованности трендов (Trend Consistency, TC@K) достигает 64.4% при K=1 и горизонте в 60 дней, а коэффициент информации (Information Coefficient, IC@K) составляет 0.3549 при K=5 и горизонте в 20 дней. Данные метрики демонстрируют высокую точность и надежность полученных эмбеддингов в прогнозировании будущей корреляции доходности.

Практическое Применение и Перспективы Развития

В основе повышения эффективности портфельной диверсификации лежит возможность точного выявления активов, обладающих схожими характеристиками. Разработанные на основе FASCL векторные представления (embeddings) обеспечивают качественно новый уровень этой точности. В отличие от традиционных методов, учитывающих лишь отдельные параметры, FASCL анализирует временные ряды финансовых активов комплексно, улавливая тонкие взаимосвязи и паттерны. Это позволяет идентифицировать активы, демонстрирующие схожую динамику, даже если их отдельные показатели существенно различаются. В результате, инвесторы получают возможность формировать более устойчивые портфели, снижая общий риск и повышая потенциальную доходность за счет включения в состав портфеля активов, которые реагируют на рыночные изменения схожим образом.

Исследование демонстрирует практическую ценность полученных векторных представлений (embeddings) посредством стратегий спрэд-трейдинга. Результаты показывают значительное повышение прибыльности по сравнению с традиционными методами, в частности, корреляционным анализом Пирсона. При значении параметра K, равном 20, была достигнута величина коэффициента Шарпа в 5.33, что на 28% превышает показатель, полученный с использованием метода Пирсона. Данный результат подтверждает эффективность предложенного подхода и его потенциал для оптимизации инвестиционных стратегий, позволяя инвесторам достигать более высокой доходности при сопоставимом уровне риска.

Данная методика обладает значительным потенциалом для расширения за счет интеграции дополнительных источников информации. Включение анализа новостного фона и макроэкономических показателей позволит более полно учитывать факторы, влияющие на стоимость активов, и, следовательно, повысить точность прогнозов и эффективность инвестиционных стратегий. Например, учет тональности новостных сообщений может сигнализировать о формировании позитивных или негативных настроений вокруг конкретной компании или сектора, в то время как макроэкономические данные, такие как инфляция или процентные ставки, способны оказывать существенное влияние на общую динамику рынка. Интеграция этих данных позволит создать более комплексную и адаптивную систему принятия инвестиционных решений, способную учитывать широкий спектр факторов и оперативно реагировать на изменения рыночной конъюнктуры.

Предстоящие исследования направлены на расширение области применения модели FASCL за пределы текущего набора финансовых инструментов и рынков. Ожидается, что адаптация данной модели к различным классам активов, таким как облигации, сырьевые товары и валютные пары, позволит значительно повысить эффективность инвестиционных стратегий в широком спектре финансовых условий. Дальнейшее изучение потенциала FASCL в различных рыночных контекстах, включая развивающиеся рынки и периоды повышенной волатильности, может привести к созданию более устойчивых и прибыльных инвестиционных портфелей, а также предоставить инвесторам новые возможности для диверсификации рисков и максимизации доходности.

Представленная работа демонстрирует стремление к математической элегантности в области финансового моделирования. Разработанный подход FASCL, ориентированный на выравнивание векторных представлений активов с корреляциями будущей доходности, подчеркивает важность масштабируемости и устойчивости алгоритмов. Как отмечал Г.Х. Харди: «Математика — это наука о том, что можно доказать». В данном случае, акцент на корреляциях будущей доходности позволяет создать доказуемо эффективный метод извлечения активов, а не полагаться на эмпирические наблюдения или «работу на тестах». Это соответствует принципу, что сложность алгоритма определяется не количеством строк кода, а его способностью к масштабированию и асимптотической устойчивости, что крайне важно для долгосрочного управления портфелем.

Куда двигаться дальше?

Представленный подход, хотя и демонстрирует улучшение в задаче поиска активов, всё же не является окончательным решением. Необходимо признать, что корреляция будущей доходности — это лишь один аспект сложной динамики финансовых временных рядов. Игнорирование нелинейных зависимостей и влияния внешних факторов представляется существенным ограничением. Простая констатация улучшения метрик не отменяет необходимости строгого математического обоснования выбора функции потерь и архитектуры сети.

Дальнейшие исследования должны быть направлены на интеграцию FASCL с моделями, учитывающими различные типы рисков — как систематические, так и идиосинкратические. Интересным направлением представляется разработка адаптивных алгоритмов, способных динамически корректировать параметры контрастивного обучения в зависимости от меняющейся рыночной конъюнктуры. Нельзя забывать, что финансовые рынки — это не статичная система, а постоянно эволюционирующая среда.

В конечном итоге, истинная ценность любого алгоритма заключается не в его способности «работать на тестах», а в его доказуемой устойчивости к новым, ранее не встречавшимся данным. Простота решения не всегда означает его элегантность; оно должно быть непротиворечивым и логически завершённым. Иначе, это всего лишь иллюзия понимания.


Оригинал статьи: https://arxiv.org/pdf/2602.10711.pdf

Связаться с автором: https://www.linkedin.com/in/avetisyan/

Смотрите также:

2026-02-12 15:07