Обучение робастных систем управления: новый взгляд на доменную рандомизацию
![На основе анализа тысячи независимых испытаний, каждое из которых включало десять тысяч шагов градиентного спуска, исследование демонстрирует, что метод доменной рандомизации, использующий оценку среднего по выборке с [latex]n_{dr} = 10^5[/latex] образцами, позволяет существенно снизить дисперсию в синтезированных контроллерах - об этом свидетельствует эмпирическое распределение [latex]\ell_2[/latex]-нормы конечного контроллера, в то время как при использовании метода синтеза SA (с [latex]M = 8[/latex]) наблюдается более широкий разброс траекторий стоимости и, как следствие, более высокая вариативность в итоговых контроллерах.](https://arxiv.org/html/2603.14197v1/x1.png)
Исследование предлагает глубокий анализ сходимости стохастического градиентного спуска при использовании доменной рандомизации для синтеза робастных линейно-квадратичных регуляторов.
![Для обеспечения сопоставимости и агрегации различных технических индикаторов (MFI, RSI, BB%, и MACD) при анализе EURUSDT и BTCUSDT, применяется каузально-устойчивая нормализация, включающая центрирование индикаторов посредством вычитания 5000-минутного каузального скользящего медианного значения [latex]I~^{(k)}\_{t}=I^{(k)}\_{t}-m^{(k)}\_{t}[/latex], оценку устойчивой локальной шкалы [latex]s^{(k)}\_{t}[/latex] как скользящего медианного абсолютного отклонения центрированной серии, и последующее преобразование индикаторов к безразмерной шкале [latex]Z^{(k)}\_{t}=\tilde{I}^{(k)}\_{t}/s^{(k)}\_{t}[/latex].](https://arxiv.org/html/2603.13638v1/x1.png)
![Еженедельное хеджирование aUSDTRYUIC барьерного опциона с номиналом в 10 миллионов долларов США демонстрирует возможность поддержания позиции с параметрами [latex]K=38.0[/latex], [latex]T=2.0[/latex] и [latex]B=40.0[/latex] посредством регулярной ребалансировки хеджирующего набора.](https://arxiv.org/html/2603.14438v1/images/USDTRY/Liquidity/Impact_function/cumulative_cost.png)