Устойчивое обучение с подкреплением от обратной связи: новый подход к стабилизации

Обучаемый агент SAFE поддерживает необходимый уровень энтропии в процессе работы, динамически регулируя величину расхождения Кулбака-Лейблера и обеспечивая стабильное обучение, что отражается в траектории вознаграждения, снижении потерь и контролируемой длине завершения.

Исследователи разработали метод, повышающий стабильность обучения моделей, управляемых обратной связью от человека, и снижающий риск нежелательного поведения.

Надежное управление в условиях неопределенности: новый подход к системам с мультипликативным шумом

Динамическое изменение размера выборки [latex]n^{\<i>}[/latex] в стратегиях DRO позволяет сформировать консервативное распределение активов в периоды высокой волатильности, эффективно ограничивая риски снижения капитала по сравнению со статическими подходами с фиксированным [latex]n^{\</i>}[/latex].

В статье представлена методика обеспечения устойчивого управления системами, подверженными шумам и неопределенностям в распределении вероятностей, использующая принципы робастного управления и теорию Вассерштейна.

Адаптивные прогнозы без настройки: новый подход к онлайн-конформным предсказаниям

Исследование демонстрирует, что метод UP-OCP превосходит DtACI в прогнозировании стационарных синтетических данных, содержащих случайные волны, указывая на его более высокую эффективность в задачах, связанных с предсказанием поведения сложных систем.

В статье представлен метод онлайн-конформных предсказаний, основанный на теории универсального портфеля, позволяющий получать надежные прогнозы без ручной оптимизации параметров.