Стратегия победителя: Управление рисками на рынках RFQ

Автор: Денис Аветисян


Новая модель стохастического управления позволяет понять, как долгосрочный успех дилера влияет на его возможности и оптимальное поведение при выставлении котировок на рынках запросов предложений.

"Покупай на слухах, продавай на новостях". А потом сиди с акциями никому не известной биотех-компании. Здесь мы про скучный, но рабочий фундаментал.

Бесплатный Телеграм канал
Логистический вентиль [latex]G(R)[/latex] и мгновенная прибыль [latex]\Pi_A(0,R)[/latex] для данного уровня запасов демонстрируют зависимость от оценки [latex]R[/latex], при этом вертикальная пунктирная линия обозначает значение [latex]R_0[/latex], что указывает на ключевую точку влияния оценки на прибыльность.
Логистический вентиль G(R) и мгновенная прибыль \Pi_A(0,R) для данного уровня запасов демонстрируют зависимость от оценки R, при этом вертикальная пунктирная линия обозначает значение R_0, что указывает на ключевую точку влияния оценки на прибыльность.

Двухуровневая стохастическая модель управления для рынков RFQ, демонстрирующая влияние «оценки победы» на интенсивность возможностей и оптимальную стратегию котирования, потенциально приводящее к бистабильным режимам продвижения и извлечения выгоды.

В условиях растущей конкуренции на финансовых рынках, эффективное управление потоком ордеров и адаптация к изменяющимся условиям становится критически важной задачей. В работе ‘Win-score promotion gates in aggregator-routed RFQ markets: A two-tier stochastic control model’ предложена двухэшелонная стохастическая модель управления для рынков запросов предложений (RFQ), где долгосрочный показатель выигрышей дилера влияет на интенсивность будущих возможностей и оптимальную стратегию котирования. Показано, что такая модель может приводить к бистабильным режимам поведения, характеризующимся чередованием стратегий «активного привлечения» и «сбора урожая». Каким образом учет динамики «репутации» дилера позволяет оптимизировать его деятельность в сложных рыночных условиях и какие новые возможности открываются для разработки адаптивных алгоритмов торговли?


Запросы предложений: Между теорией и неизбежным хаосом

Протокол запроса котировок (RFQ) является основой функционирования внебиржевых (OTC) рынков, однако представляет собой серьезные вызовы для поставщиков ликвидности. В отличие от биржевых рынков с публичными ордерами, RFQ предполагает индивидуальные переговоры по каждой сделке, что требует от поставщиков ликвидности оперативной оценки рисков и формирования конкурентоспособных цен. Необходимость быстро реагировать на множество запросов, ограниченность информации о намерениях контрагентов и риск неблагоприятного отбора создают значительную нагрузку на ресурсы и требуют сложных стратегий управления. Эффективное функционирование в рамках RFQ требует от поставщиков ликвидности не только глубокого понимания рыночной конъюнктуры, но и развитой инфраструктуры для обработки запросов и управления рисками, что делает данный процесс особенно сложным и требующим значительных инвестиций.

Управление рисками, связанными с остатками активов, является первостепенной задачей для поставщиков ликвидности на внебиржевых рынках, особенно в условиях непостоянного потока запросов котировок. Непредсказуемость этих запросов усугубляется асимметрией информации, когда участники рынка обладают неравным доступом к данным. Это создает сложную ситуацию, в которой необходимо тщательно оценивать потенциальные убытки от неликвидных позиций и одновременно максимизировать прибыль от предоставления котировок. Эффективное управление инвентарем требует не только точного прогнозирования спроса, но и способности оперативно адаптироваться к изменяющимся рыночным условиям и ассиметричному распространению информации, чтобы избежать значительных финансовых потерь.

Традиционные модели управления запасами зачастую оказываются неэффективными при работе с внебиржевыми (OTC) рынками из-за сложности учета динамического взаимодействия между потоком запросов на котировки (RFQ) и чувствительностью цены к изменениям спроса. Эти модели, как правило, предполагают стационарные параметры и не учитывают тот факт, что интенсивность и характеристики RFQ-потока могут резко меняться, влияя на оптимальный уровень запасов и требуемую ликвидность. Например, внезапный всплеск запросов на определенный актив может привести к быстрому истощению запасов и необходимости немедленного их пополнения по невыгодной цене. Более того, асимметрия информации между участниками рынка усугубляет проблему, поскольку поставщики ликвидности могут не полностью понимать истинный спрос, что приводит к неточным прогнозам и, как следствие, к неоптимальному управлению запасами. Таким образом, для эффективной работы на OTC-рынках требуется разработка новых моделей, способных учитывать динамику RFQ-потока и чувствительность цены, а также асимметрию информации.

Оптимальное смещение котировки [latex]\hat{\delta}_{z}^{A}[/latex] для [latex]z=10[/latex] зависит от уровня запасов [latex]q[/latex] и изменяется в зависимости от оценки [latex]R[/latex], при этом симметрия параметров спроса и предложения позволяет опустить индекс стороны.
Оптимальное смещение котировки \hat{\delta}_{z}^{A} для z=10 зависит от уровня запасов q и изменяется в зависимости от оценки R, при этом симметрия параметров спроса и предложения позволяет опустить индекс стороны.

Двухуровневая модель RFQ: Разделяй и властвуй над ликвидностью

Предлагаемая двухъярусная модель RFQ (Request for Quote) разделяет поток запросов котировок на два уровня: «Агрегатор» и «Фон». Разделение позволяет моделировать динамическую взаимосвязь между производительностью, доступностью возможностей и управлением запасами. Уровень «Агрегатор» предназначен для обработки запросов, определяемых критериями эффективности и приоритетами, в то время как уровень «Фон» обрабатывает остаточные запросы или запросы с более низким приоритетом. Такая архитектура позволяет оптимизировать процесс обработки RFQ, направляя наиболее перспективные запросы в приоритетный поток и обеспечивая эффективное использование ресурсов.

Агрегаторский уровень модели RFQ подвержен влиянию двух ключевых факторов: «Win-Score» (оценка выигрыша) и «Promotion Gate» (пропускная способность продвижения). «Win-Score» представляет собой метрику, определяющую приоритетность доступа к RFQ в зависимости от предыдущей эффективности участника. «Promotion Gate» функционирует как фильтр, ограничивающий количество RFQ, доступных для обработки, и определяющий, какие RFQ передаются на данный уровень. Вместе эти механизмы позволяют ранжировать и отбирать RFQ, обеспечивая приоритетный доступ к возможностям для участников с высокими показателями эффективности и регулируя поток возможностей в зависимости от доступных ресурсов и установленных критериев.

Разделение на уровни в предложенной модели RFQ позволяет анализировать взаимосвязь между показателями эффективности, доступностью возможностей и управлением запасами. Моделирование динамики этой взаимосвязи предполагает, что поставщики ликвидности адаптируют свою деятельность в ответ на изменения в доступности возможностей (определяемые интенсивностью RFQ) и текущий уровень запасов. Анализ, основанный на методах стохастического оптимального управления, позволяет оценить, как поставщики ликвидности оптимально реагируют на эту двухступенчатую систему, стремясь максимизировать прибыль при заданных ограничениях по управлению запасами и доступности возможностей. Данный подход позволяет учитывать влияние показателей эффективности (например, «Win-Score») на доступ к возможностям и оптимизировать распределение ресурсов для достижения наилучших результатов.

Для анализа оптимальных стратегий ликвидных поставщиков в предложенной двухъярусной модели RFQ используется методология стохастического оптимального управления. Интенсивность RFQ в первом ярусе (Tier A) задается параметром ΛzA = 0, 0, 0, 50, что позволяет смоделировать поток поступающих возможностей. Данная параметризация отражает неравномерность распределения RFQ, предполагая нулевую интенсивность в первые три периода и интенсивность в 50 единиц в четвертом периоде. Цель анализа — определить, как ликвидные поставщики оптимально реагируют на эту ступенчатую структуру, максимизируя свою прибыль при заданных условиях.

Оптимальное смещение котировки [latex] \delta^z_A [/latex] при нулевом запасе зависит от оценки [latex] RR [/latex] и определяется наличием обратной связи ([latex] \alpha = 0.01 [/latex]) или её отсутствием ([latex] \alpha = 0 [/latex]), при этом вертикальная пунктирная линия указывает на значение [latex] R_0 [/latex].
Оптимальное смещение котировки \delta^z_A при нулевом запасе зависит от оценки RR и определяется наличием обратной связи ( \alpha = 0.01 ) или её отсутствием ( \alpha = 0 ), при этом вертикальная пунктирная линия указывает на значение R_0 .

Аналитические основы: Вывод оптимального управления

В рамках модели оптимального управления, для определения оптимальной политики используется уравнение Гамильтона-Якоби-Беллмана (HJB). Уравнение HJB представляет собой нелинейное дифференциальное уравнение в частных производных, которое описывает эволюцию функции ценности (value function) — максимальной ожидаемой прибыли, которую можно получить, следуя оптимальной стратегии. Решение уравнения HJB позволяет получить функцию оптимального управления, определяющую оптимальные действия агента в каждый момент времени, исходя из текущего состояния системы и параметров модели. В контексте данной работы, уравнение HJB используется для характеристики оптимальной стратегии ликвидного провайдера, учитывающей факторы, такие как оценка вероятности успеха (win-score) и интенсивность запросов (RFQ intensity). \frac{\partial V(x,t)}{\partial t} + \max_{u} \left\{ f(x,u) + \frac{\partial V(x,t)}{\partial x} g(x,u) \right\} = 0 — общая форма уравнения HJB, где V — функция ценности, x — состояние системы, u — управляющее воздействие, f — непосредственная прибыль, g — скорость изменения состояния.

Для решения уравнения Гамильтона-Якоби-Беллмана (HJB) в данной модели критически важно применение оператора Берго-Гюана и квадратичного подхода к инвентарю (Quadratic Inventory Ansatz). Оператор Берго-Гюана представляет собой специфический дифференциальный оператор, позволяющий эффективно решать нелинейные уравнения в частных производных, возникающие при анализе оптимального управления. Квадратичный Ansatz предполагает, что функция ценности имеет квадратичную форму относительно состояния системы, что существенно упрощает процесс решения HJB-уравнения и позволяет получить аналитическое выражение для оптимальной политики управления. Использование данного подхода позволяет получить замкнутое решение, описывающее оптимальное поведение агента в условиях неопределенности.

Теорема о конверте (Envelope Theorem) является ключевым аналитическим инструментом, упрощающим вывод оптимальной стратегии управления. Она позволяет выразить производную функции оптимального значения (value function) по отношению к экзогенным параметрам через производную функции Лагранжа. В контексте данной модели, применение теоремы о конверте позволяет получить явную формулу для градиента функции оптимального значения по отношению к состоянию системы, что, в свою очередь, необходимо для определения оптимальной политики управления, не требуя явного решения уравнения Гамильтона-Якоби-Беллмана. Это существенно снижает вычислительную сложность и позволяет аналитически определить, как оптимальная политика реагирует на изменения в параметрах, определяющих поведение ликвидности.

Применяемые методы позволяют определить стратегию корректировки котировок поставщиком ликвидности в зависимости от оценки выигрыша (win-score) и интенсивности запросов на котировки (RFQ). Анализ демонстрирует, что использование экспоненциально взвешенной скользящей средней (EMA) с параметром памяти 0.01 позволяет моделировать релаксацию оценки выигрыша и бистабильность системы. Данный параметр EMA определяет скорость забывания предыдущих значений оценки, влияя на адаптивность поставщика ликвидности к изменяющимся условиям рынка и позволяя ему оптимизировать котировки для максимизации прибыли. Наблюдаемая бистабильность указывает на возможность существования двух устойчивых состояний котировок, определяемых комбинацией оценки выигрыша и интенсивности RFQ.

Мгновенная прибыль [latex]\Pi_{A}(0,R)[/latex] от промежуточного уровня при нулевом запасе зависит от скорости изменения оценки [latex]\dot{R}[/latex] и отображается в зависимости от значения [latex]R[/latex], при этом большая точка на кривой соответствует [latex]R_{0}[/latex], а горизонтальная пунктирная линия - [latex]\Pi_{A}(0,0)[/latex].
Мгновенная прибыль \Pi_{A}(0,R) от промежуточного уровня при нулевом запасе зависит от скорости изменения оценки \dot{R} и отображается в зависимости от значения R, при этом большая точка на кривой соответствует R_{0}, а горизонтальная пунктирная линия — \Pi_{A}(0,0).

Возникающая динамика: Бистабильность и гистерезис

Модель демонстрирует возможность возникновения бистабильности в системе, что приводит к формированию двух чётко различимых режимов работы для поставщика ликвидности. В одном режиме поставщик активно предоставляет ликвидность в ответ на запросы, в то время как в другом — остаётся относительно пассивным, даже при схожих условиях. Данное явление возникает благодаря сложной взаимосвязи между интенсивностью запросов на котировки (RFQ) и стратегией управления ликвидностью. Переход между этими режимами не является плавным, а происходит скачкообразно, что указывает на наличие критических точек в системе. Таким образом, поставщик ликвидности может находиться в состоянии стабильной активности или стабильной пассивности, в зависимости от начальных условий и истории изменений интенсивности RFQ.

В исследуемой системе наблюдается явление гистерезиса, тесно связанное с бистабильностью. Это означает, что реакция поставщика ликвидности на изменение интенсивности запросов на котировки (RFQ) зависит от предыстории системы, а не только от текущего значения RFQ. Иными словами, траектория перехода системы из одного стабильного состояния в другое различается в зависимости от того, как она достигла текущей точки. Подобное поведение указывает на наличие «памяти» в системе, где прошлое состояние влияет на будущую реакцию. В результате, для одного и того же уровня RFQ система может демонстрировать различные ответы в зависимости от того, увеличивался или уменьшался RFQ ранее, что существенно влияет на стратегию управления ликвидностью.

Логистический шлюз оказывает существенное влияние на механизм продвижения заявок, модулируя степень гистерезиса, наблюдаемого в системе. Исследование демонстрирует, что бистабильность возникает посредством бифуркаций с развитием, когда крутизна шлюза (β) изменяется. Увеличение крутизны приводит к более резкому переключению между режимами работы поставщика ликвидности, формируя выраженный гистерезис, в то время как снижение крутизны сглаживает переход и может привести к исчезновению бистабильности. Этот процесс отражает нелинейную зависимость между интенсивностью запросов и реакцией системы, подчеркивая важность точной настройки параметров шлюза для достижения желаемого поведения и стабильности рынка.

Исследование выявило, что динамика рынков запросов предложений (RFQ) характеризуется сложными нелинейностями и обратными связями, что требует пересмотра традиционных линейных моделей. Подобные рынки не реагируют на изменения интенсивности запросов предложений предсказуемым образом; вместо этого, система демонстрирует способность переключаться между различными режимами работы, а её ответ на внешние воздействия зависит от предшествующей истории изменений. Игнорирование этих нелинейных эффектов может привести к неверной оценке рыночных рисков и неэффективным стратегиям управления ликвидностью. В частности, обратные связи, возникающие в процессе взаимодействия участников, формируют петли усиления и ослабления, приводящие к возникновению бистабильности и гистерезиса, что существенно влияет на стабильность и предсказуемость функционирования рынка.

Диаграмма бифуркации показывает зависимости неподвижных точек от обратной крутизны затвора (в логарифмическом масштабе), при этом пунктирной линией обозначен уровень стабильной точки без обратной связи по результату ([latex]\alpha = 0[/latex]).
Диаграмма бифуркации показывает зависимости неподвижных точек от обратной крутизны затвора (в логарифмическом масштабе), при этом пунктирной линией обозначен уровень стабильной точки без обратной связи по результату (\alpha = 0).

В данной работе исследуется динамика рынков RFQ, где дилер вынужден балансировать между краткосрочной прибылью и долгосрочной репутацией, измеряемой win-score. Модель показывает, как эта метрика влияет на интенсивность поступающих запросов и оптимальную стратегию котирования. Вполне закономерно, что система стремится к бистабильности — периодам активного привлечения клиентов и последующей «сборки урожая». Как говорил Блез Паскаль: «Все великие вещи требуют времени». И в данном случае, долгосрочная оптимизация win-score требует терпения и умения адаптироваться к меняющимся условиям рынка. Ведь, как известно, документация к любой системе RFQ всегда будет описывать идеальную картину, далекую от реальности.

Что дальше?

Представленная работа, конечно, элегантно демонстрирует, как “очки побед” влияют на поведение дилера в RFQ-маркетах. Но давайте будем честны: реальный мир не состоит из гауссовских шумов и оптимального контроля. Вместо этого, его населяют алгоритмы, написанные на коленке, и трейдеры, руководствующиеся скорее интуицией, чем стохастическими уравнениями. Следующим шагом, вероятно, станет попытка впихнуть эту модель в реальные данные — и тогда станет ясно, насколько быстро “бистабильность” превратится в хаотичные скачки цен, вызванные очередным багом в коде.

Особый интерес представляет вопрос о масштабируемости. Модель прекрасно работает для одного дилера, но что произойдет, когда в игру вступят сотни, конкурирующих друг с другом? Вместо “сбора урожая” и “кампании”, скорее всего, возникнет ситуация, когда все будут пытаться перехитрить друг друга, что приведет к снижению ликвидности и увеличению транзакционных издержек. Тесты, разумеется, покажут лишь то, что они и должны — отсутствие критических ошибок. Но это лишь форма надежды, а не уверенности.

В конечном счете, вся эта сложная математика — лишь попытка описать то, что в конечном итоге определяется простыми человеческими желаниями: заработать как можно больше денег. И история показывает, что эти желания всегда находят способы обойти любую, даже самую продуманную, систему контроля. Так что, можно смело утверждать: завтрашняя “революционная” технология станет очередным техдолгом.


Оригинал статьи: https://arxiv.org/pdf/2603.10569.pdf

Связаться с автором: https://www.linkedin.com/in/avetisyan/

Смотрите также:

2026-03-12 16:29