Предсказания на Реальных Данных: Проверка Способностей Искусственного Интеллекта в Финансовых Рынках

Автор: Денис Аветисян

Новое исследование оценивает, насколько хорошо модели искусственного интеллекта могут прогнозировать события и приносить прибыль на децентрализованных рынках предсказаний.

"Покупай на слухах, продавай на новостях". А потом сиди с акциями никому не известной биотех-компании. Здесь мы про скучный, но рабочий фундаментал.

Бесплатный Телеграм канал

Конвейер PolyBench, состоящий из четырёх этапов - сбора данных с Polymarket Gamma API, многомодального извлечения новостей и снимков биржевых стаканов, пакетного анализа с использованием больших языковых моделей и сопоставления с истинными значениями - позволяет автоматизировать процесс выявления и верификации рыночных событий. — Конвейер PolyBench, состоящий из четырёх этапов — сбора данных с Polymarket Gamma API, многомодального извлечения новостей и снимков биржевых стаканов, пакетного анализа с использованием больших языковых моделей и сопоставления с истинными значениями — позволяет автоматизировать процесс выявления и верификации рыночных событий.

В работе представлен PolyBench — новый эталон для оценки моделей, работающих с данными финансовых рынков, который выявил лишь несколько действительно эффективных моделей.

Несмотря на впечатляющий прогресс в области больших языковых моделей (LLM), оценка их способности к реальному финансовому прогнозированию остается сложной задачей. В настоящей работе представлена платформа ‘PolyBench: Benchmarking LLM Forecasting and Trading Capabilities on Live Prediction Market Data’, новый мультимодальный бенчмарк, основанный на данных децентрализованных предсказательских рынков Polymarket, включающий в себя снимки ордер-буков и потоки новостей. Анализ семи современных LLM показал, что лишь две модели — MiMo-V2-Flash ( $17.6\%$ Confidence-Weighted Return) и Gemini-3-Flash ( $6.2\%$ CWR) — обеспечили положительную финансовую доходность, несмотря на заявленную высокую уверенность. Действительно ли существует разрыв между поверхностным языковым мастерством и способностью к достоверному вероятностному анализу в условиях неопределенности рыночной конъюнктуры?

За гранью Традиций: Ограничения Существующих Подходов

Традиционные финансовые модели, разработанные для относительно стабильных рыночных условий, всё чаще оказываются неспособными адекватно отразить динамику современных финансовых систем. Сложность взаимосвязей между активами, скорость распространения информации и непредсказуемость глобальных событий приводят к тому, что существующие методы анализа часто дают ошибочные прогнозы. В результате, упускаются возможности для получения прибыли и управления рисками, поскольку модели не успевают адаптироваться к постоянно меняющейся реальности. Это особенно заметно в периоды высокой волатильности и при возникновении «черных лебедей» — редких, но крайне значимых событий, которые оказывают существенное влияние на рынки. В связи с этим, возникает потребность в новых подходах к финансовому моделированию, способных учитывать сложность и непредсказуемость современной экономики.

Традиционные методы прогнозирования, широко использующие исторические данные, часто оказываются неэффективными при столкновении с непредсказуемыми событиями и новой информацией. Основываясь на прошлых тенденциях, эти модели испытывают трудности с адаптацией к резким изменениям рынка или возникновению принципиально новых факторов, влияющих на исход событий. В результате, предсказания, основанные исключительно на ретроспективном анализе, могут оказаться существенно неточными, особенно в периодах высокой волатильности и неопределенности. Такая ограниченность подчеркивает необходимость разработки более гибких и адаптивных систем прогнозирования, способных учитывать текущую динамику и оперативно реагировать на поступающие данные, а не полагаться исключительно на паттерны прошлого.

Появление децентрализованных рынков прогнозирования требует принципиально новых, более гибких и адаптивных стратегий прогнозирования. В отличие от традиционных методов, опирающихся на централизованные источники и ограниченные наборы данных, эти рынки используют коллективный разум широкого круга участников для оценки вероятности различных событий. Такой подход позволяет оперативно реагировать на поступающую информацию и учитывать широкий спектр мнений, что особенно важно в условиях быстро меняющихся рынков и непредсказуемых событий. Использование принципов теории игр и механизмов стимулирования на этих рынках способствует более точным и надежным прогнозам, поскольку участники заинтересованы в предоставлении правдивой информации. В результате, децентрализованные платформы предлагают альтернативу традиционным моделям, способную улавливать нюансы и адаптироваться к новым вызовам, тем самым повышая эффективность прогнозирования в различных областях.

Точность прогнозирования событий имеет решающее значение для принятия обоснованных решений в различных сферах, однако существующие модели сталкиваются со значительными трудностями при обобщении на широкий спектр незнакомых тем. Вместо того чтобы разрабатывать специализированные решения для каждого отдельного случая, исследователи стремятся создать универсальные алгоритмы, способные адаптироваться к новым и непредсказуемым событиям. Проблема заключается в том, что модели, обученные на ограниченном наборе данных, часто демонстрируют низкую производительность при столкновении с принципиально новыми ситуациями, требующими экстраполяции знаний за пределы имеющегося опыта. Для преодоления этих ограничений разрабатываются методы, включающие обучение с подкреплением, мета-обучение и трансферное обучение, позволяющие моделям быстро адаптироваться к новым задачам и эффективно использовать накопленные знания, что особенно важно в условиях постоянно меняющегося мира.

Анализ Confidence-Weighted Return и средней заявленной уверенности по восьми областям событий показывает, что языковые модели склонны к неверной калибровке, демонстрируя высокую уверенность ([latex]c \geq 0.8[/latex]) даже в волатильных секторах, таких как криптовалюты, что приводит к значительным отрицательным возвратам. — Анализ Confidence-Weighted Return и средней заявленной уверенности по восьми областям событий показывает, что языковые модели склонны к неверной калибровке, демонстрируя высокую уверенность ( $c \geq 0.8$ ) даже в волатильных секторах, таких как криптовалюты, что приводит к значительным отрицательным возвратам.

PolyBench: Новый Эталон Оценки Прогностических Возможностей LLM

PolyBench представляет собой новый эталон для оценки больших языковых моделей (LLM) в роли торговых агентов на децентрализованных рынках прогнозирования. В отличие от существующих бенчмарков, ориентированных на общие задачи обработки естественного языка, PolyBench фокусируется исключительно на финансовой эффективности и способности LLM генерировать прибыльные торговые стратегии в реальных рыночных условиях. Эталон предназначен для оценки LLM в контексте децентрализованных приложений (dApps) и позволяет исследователям и разработчикам количественно оценить производительность моделей в сценариях, где решения напрямую влияют на финансовый результат. Ключевой особенностью PolyBench является возможность тестирования LLM на живых, публично доступных рынках, что обеспечивает более реалистичную и надежную оценку их торгового потенциала.

В основе PolyBench лежит акцент на финансовой устойчивости моделей и, что критически важно, использование метода оценки, исключающего «загрязнение» данных (contamination-free evaluation). Это достигается путем строгой изоляции тестовых транзакций от обучающих данных, предотвращая ситуации, когда модель предсказывает результаты, основанные на уже известных исходах. Такой подход гарантирует, что полученные метрики производительности отражают реальную способность модели генерировать прибыльные прогнозы в условиях, приближенных к реальным торговым операциям, а не просто запоминают исторические данные. Использование «чистых» данных для оценки позволяет получить более объективную и надежную картину эффективности языковых моделей в качестве торговых агентов.

PolyBench использует центральный лимит-ордербук (Central Limit Order Book, CLOB) для моделирования реалистичных условий торговли, что позволяет оценить способность языковых моделей (LLM) ориентироваться в рыночной ликвидности и учитывать потенциальное проскальзывание. CLOB представляет собой электронную систему, в которой ордера на покупку и продажу ценных бумаг собираются и сопоставляются по цене и времени. Имитируя функционирование CLOB, PolyBench позволяет LLM взаимодействовать с динамичными рыночными условиями, где доступные объемы ордеров и разница между ценой покупки и продажи (спред) могут значительно варьироваться. Оценка способности модели эффективно размещать и исполнять ордера в условиях изменяющейся ликвидности и проскальзывания является ключевым аспектом оценки ее практической пригодности в качестве торгового агента.

В PolyBench для оценки моделей прогнозирования используется метрика Confidence-Weighted Return (CWR), которая учитывает не только прибыльность торговых стратегий, но и уверенность модели в своих предсказаниях. CWR вычисляется как взвешенная сумма прибыли от каждой сделки, где вес определяется уверенностью модели в соответствующем прогнозе. $CWR = \sum_{i=1}^{n} p_i \cdot c_i$ , где $p_i$ — прибыль от i-й сделки, а $c_i$ — уверенность модели в прогнозе, лежащем в основе этой сделки. Использование CWR позволяет более точно оценивать реальную эффективность моделей, поскольку учитывает риск, связанный с низкой уверенностью в предсказаниях, и способствует выявлению моделей, демонстрирующих как прибыльность, так и калиброванную уверенность.

Увеличение размера базовой партии инвестиций (LL) для MiMo-V2-Flash и Gemini-3-Flash приводит к быстрому снижению теоретической альфы из-за алгоритмического проскальзывания на ограниченных уровнях исторического ордербука при масштабировании инвестиционного бюджета от $10 до $1000.

MiMo-V2-Flash лидирует в оценке эффективности LLM

Оценка, проведенная с использованием PolyBench, показала, что большие языковые модели (LLM) способны приносить положительную прибыль на децентрализованных рынках прогнозирования. Однако, из семи протестированных моделей, успешными оказались лишь две. Это указывает на значительную вариативность в эффективности LLM применительно к данной задаче и подчеркивает необходимость тщательного отбора и оптимизации моделей для получения стабильных результатов в сфере прогнозирования и торговли.

В ходе оценки на PolyBench модель MiMo-V2-Flash продемонстрировала устойчивую прибыльность, достигнув взвешенной по уверенности доходности в 17.6%. Это свидетельствует о способности модели последовательно генерировать прибыльные сделки в децентрализованных рынках прогнозирования. Взвешенная по уверенности доходность рассчитывается с учетом вероятности, присвоенной каждой сделке, что позволяет более точно оценить эффективность модели в условиях различной степени неопределенности. Результаты показывают, что MiMo-V2-Flash стабильно превосходит другие протестированные модели по показателю прибыльности.

В ходе оценки моделей больших языковых моделей (LLM) на платформе PolyBench, Gemini-3-Flash продемонстрировал положительную доходность, однако его Confidence-Weighted Return составил 6.2%, что значительно ниже показателя MiMo-V2-Flash, достигшего 17.6%. Данное различие указывает на существенную роль архитектуры модели и качества используемых данных для обучения в контексте прогнозирования на децентрализованных рынках. Более низкая доходность Gemini-3-Flash, несмотря на положительный результат, подчеркивает, что оптимизация этих факторов может значительно повлиять на прибыльность LLM в качестве торговых агентов.

Результаты оценки демонстрируют потенциал больших языковых моделей (LLM) в выявлении прибыльных торговых возможностей посредством анализа расхождений между прогнозами модели и рыночными коэффициентами. Этот процесс, обозначенный как «Идентификация Ценности» (Value Identification), заключается в определении ситуаций, когда предсказания LLM существенно отличаются от рыночной оценки вероятности события. При успешной реализации, LLM могут выявлять недооцененные или переоцененные исходы, предоставляя основу для совершения сделок с положительным математическим ожиданием. Использование LLM в данной области позволяет автоматизировать процесс выявления таких расхождений, потенциально увеличивая эффективность и прибыльность торговли на децентрализованных прогнозных рынках.

Анализ Confidence-Weighted Return (CWR) показывает, что модели MiMo-V2-Flash и Gemini-3-Flash выделяются устойчивым ростом, обусловленным способностью предсказывать редкие события с высокой уверенностью и извлекать прибыль из аномально высоких индивидуальных сделок, отделяя предсказательную альфу от рыночного шума.

Взгляд в будущее: Создание надежных и устойчивых прогностических систем

Успешное применение больших языковых моделей (LLM) в рамках платформы PolyBench наглядно демонстрирует их потенциал в создании стабильных стратегий получения прибыли на динамичных рынках. Исследования показали, что LLM способны адаптироваться к постоянно меняющимся условиям и принимать обоснованные решения, что позволяет им поддерживать устойчивую доходность даже в периоды высокой волатильности. Такая способность к адаптации особенно ценна в финансовых приложениях, где традиционные алгоритмы часто испытывают трудности при обработке нелинейных и непредсказуемых рыночных тенденций. Эффективность LLM в PolyBench подтверждает их перспективность как инструмента для разработки передовых торговых систем, способных генерировать стабильный доход в сложных рыночных условиях.

При максимизации прибыли необходимо учитывать не только абсолютную доходность, но и уровень риска, связанный с получением этой прибыли. В связи с этим, для оценки эффективности стратегий, основанных на больших языковых моделях, используется коэффициент Шарпа $\frac{R_p - R_f}{\sigma_p}$ , где $R_p$ — средняя доходность портфеля, $R_f$ — безрисковая ставка доходности, а $\sigma_p$ — стандартное отклонение доходности портфеля. Этот показатель позволяет оценить доходность с поправкой на риск, то есть определить, насколько эффективно достигается прибыль, учитывая потенциальные убытки. Высокий коэффициент Шарпа свидетельствует о более привлекательной стратегии, поскольку она обеспечивает более высокую доходность при заданном уровне риска или, наоборот, меньший риск при заданной доходности.

Абсолютно критичным фактором для обеспечения стабильной работы больших языковых моделей (LLM) в сфере прогнозирования является точное следование инструкциям. В контексте торговых стратегий, даже незначительные отклонения в интерпретации и выполнении заданий могут привести к существенным финансовым потерям. Исследования показывают, что способность LLM точно понимать и реализовывать торговые указания напрямую влияет на стабильность и предсказуемость результатов, а значит и на итоговый показатель, характеризующий соотношение прибыли и риска — коэффициент Шарпа. Гарантированное соблюдение инструкций становится ключевым условием для надежного функционирования LLM в динамичных рыночных условиях и позволяет использовать их потенциал для создания эффективных и устойчивых стратегий.

Разработанный подход, использующий большие языковые модели (LLM) и строгую систему оценки, обладает значительным потенциалом для применения в широком спектре областей, выходящих за рамки финансовых рынков. Основываясь на анализе 38 666 бинарных снимков рынка, охватывающих 4 997 реальных событий, данная методология позволяет создавать надежные системы прогнозирования, способные оказывать влияние на процессы принятия решений в самых разных сферах. От логистики и управления цепочками поставок до прогнозирования спроса и оценки рисков — возможность точного предсказания на основе анализа данных открывает новые горизонты для оптимизации и повышения эффективности в различных отраслях. Строгая оценка, проведенная на обширном и разнообразном наборе данных, гарантирует надежность и адаптивность разработанных моделей к различным условиям и сценариям.

Исследование PolyBench демонстрирует, что даже самые передовые языковые модели, уверенно предсказывающие исходы на децентрализованных рынках, часто терпят неудачу в реальной торговле. Это несоответствие между уверенностью и прибыльностью напоминает о фундаментальной сложности финансовых систем. Как заметил Эпикур: «Не тот страдает, кто лишен желаемого, а тот, кто не знает, чего желает». Подобно тому, как модель может быть уверена в предсказании, но не понимать истинных рыночных механизмов, человек, не понимающий своих потребностей, обречен на разочарование. PolyBench, выявляя эту разницу между уверенностью и фактической прибылью, словно проводит реверс-инжиниринг иллюзий, создаваемых моделями, и указывает на необходимость более глубокого понимания рыночной динамики. Каждый патч, каждая новая модель — это философское признание несовершенства наших прогнозов.

Куда же дальше?

Представленный анализ, демонстрируя ограниченность текущих языковых моделей в роли финансовых оракулов, скорее подтверждает, чем опровергает изначальное подозрение: предсказание рынков — это не просто обработка данных, а игра с непредсказуемостью. Положительные результаты, полученные лишь у немногих экземпляров, не столько свидетельствуют об их прорывных способностях, сколько о случайном попадании в благоприятную фазу хаоса. Впрочем, сам факт, что модели способны генерировать хоть какую-то уверенность, даже ложную, открывает простор для дальнейших экспериментов с механизмами самообмана и оптимизации рисков.

Особый интерес представляет вопрос о «чистоте» тестов. Невозможно полностью исключить «загрязнение» данных, ведь информация просачивается повсюду. Следующим шагом видится разработка методов оценки степени «загрязнения» и создание моделей, устойчивых к подобным искажениям. Возможно, стоит обратить внимание на принципы, лежащие в основе функционирования человеческого мозга, где интуиция и «шестое чувство» играют не менее важную роль, чем логический анализ.

В конечном счете, PolyBench — это не просто набор метрик, а приглашение к исследованию границ возможного. Попытки обучить машину предсказывать будущее неизбежно приводят к углублению понимания самого будущего, даже если это понимание заключается в осознании его непредсказуемости. И, как известно, истинное знание начинается там, где заканчивается уверенность.

Оригинал статьи: https://arxiv.org/pdf/2604.14199.pdf

Связаться с автором: https://www.linkedin.com/in/avetisyan/

Смотрите также:

2026-04-18 07:14