Устойчивое обучение с подкреплением от обратной связи: новый подход к стабилизации

Исследователи разработали метод, повышающий стабильность обучения моделей, управляемых обратной связью от человека, и снижающий риск нежелательного поведения.

Исследователи разработали метод, повышающий стабильность обучения моделей, управляемых обратной связью от человека, и снижающий риск нежелательного поведения.
![В рамках исследования стохастических горизонтов принятия решений (SDH) демонстрируется, как модуляция планируемого горизонта посредством вероятностей продолжения α приводит к переменному дисконтированию [latex]\tilde{\gamma}=\gamma\alpha[/latex] и взвешенной по выживанию отдаче [latex]\tilde{r}=\alpha r[/latex], что находит применение в задачах управления человекоподобной локомоцией Hyfydy, где оптимизация ходьбы с минимальными усилиями ограничена целевой скоростью, а также в средах Safety Gymnasium, сочетающих награды за достижение целей со стандартизированными затратами, связанными с опасностями.](https://arxiv.org/html/2602.04599v1/x1.png)
Новый подход позволяет стабилизировать и ускорить обучение в задачах с ограничениями, адаптируя горизонт планирования в зависимости от их нарушения.
![Динамическое изменение размера выборки [latex]n^{\<i>}[/latex] в стратегиях DRO позволяет сформировать консервативное распределение активов в периоды высокой волатильности, эффективно ограничивая риски снижения капитала по сравнению со статическими подходами с фиксированным [latex]n^{\</i>}[/latex].](https://arxiv.org/html/2602.04219v1/x1.png)
В статье представлена методика обеспечения устойчивого управления системами, подверженными шумам и неопределенностям в распределении вероятностей, использующая принципы робастного управления и теорию Вассерштейна.
![Риск превышения [latex]99\text{%}[/latex] доверительного интервала (VaR) для взвешенного по рыночной капитализации индекса CRSP оставался стабильным до начала тестового периода, после чего продемонстрировал умеренные колебания, лишь незначительно усилившиеся во время финансового кризиса 2008-2009 годов и шока, вызванного COVID-19 в 2020 году, что указывает на устойчивость применяемой модели оценки рисков в периоды турбулентности.](https://arxiv.org/html/2602.03903v1/figures/fig1_rolling_exceedance_shaded_hs.png)
Исследование предлагает метод контроля за рисками, позволяющий повысить надежность прогнозов Value-at-Risk в условиях нестационарных финансовых временных рядов.

В статье представлен метод онлайн-конформных предсказаний, основанный на теории универсального портфеля, позволяющий получать надежные прогнозы без ручной оптимизации параметров.