Торговля на высокой частоте: обучение агентов в реальном времени

Автор: Денис Аветисян


Новая платформа для моделирования и обучения стратегий высокочастотной торговли с использованием многоагентного обучения с подкреплением.

"Покупай на слухах, продавай на новостях". А потом сиди с акциями никому не известной биотех-компании. Здесь мы про скучный, но рабочий фундаментал.

Бесплатный Телеграм канал
В архитектуре параллельных вычислений на графических процессорах, векторизованное отображение в JAX позволяет реализовать два уровня параллелизма, раскрывая потенциал для значительного ускорения обработки данных.
В архитектуре параллельных вычислений на графических процессорах, векторизованное отображение в JAX позволяет реализовать два уровня параллелизма, раскрывая потенциал для значительного ускорения обработки данных.

Исследование представляет JaxMARL-HFT – GPU-ускоренную платформу для моделирования многоагентного обучения с подкреплением в контексте лимитных ордерных книг, обеспечивающую значительное увеличение скорости и демонстрирующую первые результаты обучения агентов.

Моделирование рынков высоких частот с использованием агентского подхода затруднено из-за сложности калибровки и валидации, обусловленной большим количеством параметров. В данной работе представлена платформа ‘JaxMARL-HFT: GPU-Accelerated Large-Scale Multi-Agent Reinforcement Learning for High-Frequency Trading’, предназначенная для обучения агентов в задачах высокочастотной торговли с использованием многоагентного обучения с подкреплением и GPU-ускорением. Предложенная среда позволяет добиться значительного сокращения времени обучения – до 240 раз по сравнению с существующими реализациями – и демонстрирует успешное обучение агентов выполнению задач исполнения ордеров и маркет-мейкинга. Возможно ли, используя JaxMARL-HFT, разработать более эффективные и адаптивные торговые стратегии, способные учитывать динамику реальных рынков?


Иллюзия Контроля над Рыночным Хаосом

Традиционные стратегии высокочастотной торговли (HFT) сталкиваются с трудностями при работе со сложностью современных книг заявок. Неспособность адекватно учитывать динамику рынка приводит к снижению прибыльности и увеличению рисков в условиях постоянно меняющейся конъюнктуры. Существующие методы часто полагаются на упрощенные модели, жертвуя потенциальной прибылью и увеличивая вероятность неблагоприятных исходов, особенно в периоды высокой волатильности. Необходимы масштабируемые и адаптивные стратегии, требующие нового вычислительного подхода для навигации по рыночной динамике. Как и чёрная дыра, поглощающая свет, рынок поглощает наши наивные представления о предсказуемости, оставляя лишь отблески реальности.

Агент, действуя на рынке, чаще всего воздерживается от совершения сделок, что усиливается штрафом за хранение запасов, при этом оставшееся время он размещает ордера в глубине книги заявок с одной стороны и в пределах спреда с другой.
Агент, действуя на рынке, чаще всего воздерживается от совершения сделок, что усиливается штрафом за хранение запасов, при этом оставшееся время он размещает ордера в глубине книги заявок с одной стороны и в пределах спреда с другой.

JaxMARL-HFT: Рождение Адаптивного Торгового Агента

JaxMARL-HFT представляет собой новый фреймворк для обучения множества агентов взаимодействию в симулированной книге лимитных ордеров, позволяющий разрабатывать децентрализованные и адаптивные торговые стратегии посредством многоагентного обучения с подкреплением (MARL). Система построена на JAX, что обеспечивает аппаратное ускорение на GPU для эффективного обучения и симуляции сложных рыночных сценариев. Достигнуто до 240-кратное снижение времени обучения, что значительно ускоряет процесс разработки и тестирования новых торговых алгоритмов.

Оценка обученных агентов при взаимодействии с базовыми реализациями (TWAP и AvSt (Avellaneda и Stoikov, 2008)) показывает, что обученные политики превосходят базовые, при этом агент-исполнитель показывает худшие результаты при взаимодействии с обученным агентом-маркет-мейкером, чем с базовым, что подтверждается представленными данными о стоимости портфеля (нижние треугольники) и проскальзывании (верхние треугольники).
Оценка обученных агентов при взаимодействии с базовыми реализациями (TWAP и AvSt (Avellaneda и Stoikov, 2008)) показывает, что обученные политики превосходят базовые, при этом агент-исполнитель показывает худшие результаты при взаимодействии с обученным агентом-маркет-мейкером, чем с базовым, что подтверждается представленными данными о стоимости портфеля (нижние треугольники) и проскальзывании (верхние треугольники).

JAX-LOB: Моделирование Рыночной Реальности

В основе JaxMARL-HFT лежит JAX-LOB, обеспечивающий быстрое и точное моделирование книги лимитных ордеров, предоставляя необходимую основу для обучения агентов в реалистичной среде. Использование JAX для реализации JAX-LOB обеспечивает бесшовную интеграцию с алгоритмами MARL и возможность аппаратного ускорения обучения с использованием GPU, что сокращает время тренировки агентов. Эффективное моделирование позволяет агентам изучать оптимальные торговые стратегии посредством взаимодействия и экспериментирования, демонстрируя ускорение процесса обучения в 95-125 раз при использовании 5 обучающих агентов.

Сравнение скорости обучения с подкреплением демонстрирует эффективность разработанного конвейера.
Сравнение скорости обучения с подкреплением демонстрирует эффективность разработанного конвейера.

Проверка Гипотез: Сравнение MARL и Традиционных Стратегий

Среда JaxMARL-HFT предоставляет возможность сопоставления изученных стратегий MARL с традиционными методами, такими как модель Авелланеды-Стоикова. Использование наборов данных, таких как LOBSTER, обеспечивает реалистичные рыночные данные для обучения и оценки производительности агентов. Первоначальные результаты демонстрируют снижение стоимости исполнения на 20% за тик по сравнению с TWAP.

Кривая обучения агента-маркет-мейкера, показывающая стоимость портфеля, демонстрирует влияние различных функций вознаграждения и пространств действий (красный/зеленый/синий), а также эффект квадратичного штрафа за хранение запасов и эталонной цены для расчета стоимости портфеля.
Кривая обучения агента-маркет-мейкера, показывающая стоимость портфеля, демонстрирует влияние различных функций вознаграждения и пространств действий (красный/зеленый/синий), а также эффект квадратичного штрафа за хранение запасов и эталонной цены для расчета стоимости портфеля.

Любая попытка упростить модель рынка неизбежно ведет к искажению реальности, подобно тому, как горизонт событий скрывает истинную природу сингулярности.

За горизонтом событий: Расширение MARL-фреймворка

Дальнейшие исследования могут быть направлены на изучение возможностей применения более продвинутых алгоритмов обучения с подкреплением, таких как Independent PPO. Методы агентного моделирования могут быть интегрированы для симуляции влияния множества взаимодействующих агентов на общую рыночную динамику, что позволит оценить последствия внедрения алгоритмов машинного обучения в финансовые рынки и выявить потенциальные риски. Представленная платформа предоставляет универсальный инструмент для изучения потенциала MARL в широком спектре финансовых приложений, выходящих за рамки высокочастотной торговли.

Исследование, представленное в данной работе, демонстрирует, как быстро горизонт событий может поглотить даже самые тщательно выстроенные модели. JaxMARL-HFT, ускоряя симуляцию высокочастотной торговли, обнажает пределы познания в сфере сложных систем. Карл Поппер однажды заметил: “Всякий, кто предлагает какое-либо решение проблемы, должен также указать, как можно проверить, верно ли оно.” Этот принцип находит отражение в стремлении авторов к созданию проверяемой и масштабируемой платформы для изучения поведения агентов в условиях динамичного лимитного ордербука. Любая теория хороша, пока свет не покинет её пределы, а в данном случае – пока вычислительные мощности позволяют поддерживать симуляцию.

Что впереди?

Представленная работа, ускоряющая моделирование многоагентного обучения с подкреплением для высокочастотной торговли, открывает двери к более сложным симуляциям, но и подчеркивает пропасть между вычислительной мощностью и истинным пониманием рыночной динамики. Скорость – лишь инструмент, а рынок, как чёрная дыра, поглощает даже самые изящные модели, оставляя лишь эхо упрощений. Вопрос не в том, сможем ли мы создать идеальную симуляцию, а в том, осознаём ли мы её неизбежную неполноту.

Дальнейшие исследования неизбежно столкнутся с необходимостью моделирования не только поведения агентов, но и влияния внешних факторов, не поддающихся формализации – внезапных новостей, иррациональных импульсов, коллективной психологии. Попытки учесть всё – это иллюзия, но признание этой иллюзии – первый шаг к построению более реалистичных, хотя и несовершенных, моделей. Как и в случае с чёрными дырами, мы видим лишь следствие, а не причину.

Возможно, наиболее перспективным направлением станет интеграция с другими областями знаний – поведенческой экономикой, теорией сложности, даже философией. Рынок – это не просто набор алгоритмов, это зеркало человеческой природы, и его изучение требует более широкого взгляда. Космос щедро показывает свои тайны тем, кто готов смириться с тем, что не всё объяснимо. Черные дыры — это природные комментарии к нашей гордыне.


Оригинал статьи: https://arxiv.org/pdf/2511.02136.pdf

Связаться с автором: https://www.linkedin.com/in/avetisyan/

Смотрите также:

2025-11-05 10:09