Наука — Страница 99

Устойчивое обучение с подкреплением от обратной связи: новый подход к стабилизации

05.02.2026 от Денис Аветисян

Обучаемый агент SAFE поддерживает необходимый уровень энтропии в процессе работы, динамически регулируя величину расхождения Кулбака-Лейблера и обеспечивая стабильное обучение, что отражается в траектории вознаграждения, снижении потерь и контролируемой длине завершения.

Исследователи разработали метод, повышающий стабильность обучения моделей, управляемых обратной связью от человека, и снижающий риск нежелательного поведения.

Обучение с подкреплением: когда ограничения меняют горизонт планирования

05.02.2026 от Денис Аветисян

$В рамках исследования стохастических горизонтов принятия решений (SDH) демонстрируется, как модуляция планируемого горизонта посредством вероятностей продолжения α приводит к переменному дисконтированию [latex]\tilde{\gamma}=\gamma\alpha[/latex] и взвешенной по выживанию отдаче [latex]\tilde{r}=\alpha r[/latex], что находит применение в задачах управления человекоподобной локомоцией Hyfydy, где оптимизация ходьбы с минимальными усилиями ограничена целевой скоростью, а также в средах Safety Gymnasium, сочетающих награды за достижение целей со стандартизированными затратами, связанными с опасностями.$

Новый подход позволяет стабилизировать и ускорить обучение в задачах с ограничениями, адаптируя горизонт планирования в зависимости от их нарушения.

Надежное управление в условиях неопределенности: новый подход к системам с мультипликативным шумом

05.02.2026 от Денис Аветисян

$Динамическое изменение размера выборки [latex]n^{\<i>}[/latex] в стратегиях DRO позволяет сформировать консервативное распределение активов в периоды высокой волатильности, эффективно ограничивая риски снижения капитала по сравнению со статическими подходами с фиксированным [latex]n^{\</i>}[/latex].$

В статье представлена методика обеспечения устойчивого управления системами, подверженными шумам и неопределенностям в распределении вероятностей, использующая принципы робастного управления и теорию Вассерштейна.

Укрощение рисков: новый подход к VaR в меняющихся рынках

05.02.2026 от Денис Аветисян

$Риск превышения [latex]99\text{%}[/latex] доверительного интервала (VaR) для взвешенного по рыночной капитализации индекса CRSP оставался стабильным до начала тестового периода, после чего продемонстрировал умеренные колебания, лишь незначительно усилившиеся во время финансового кризиса 2008-2009 годов и шока, вызванного COVID-19 в 2020 году, что указывает на устойчивость применяемой модели оценки рисков в периоды турбулентности.$

Исследование предлагает метод контроля за рисками, позволяющий повысить надежность прогнозов Value-at-Risk в условиях нестационарных финансовых временных рядов.

Адаптивные прогнозы без настройки: новый подход к онлайн-конформным предсказаниям

05.02.2026 от Денис Аветисян

Исследование демонстрирует, что метод UP-OCP превосходит DtACI в прогнозировании стационарных синтетических данных, содержащих случайные волны, указывая на его более высокую эффективность в задачах, связанных с предсказанием поведения сложных систем.

В статье представлен метод онлайн-конформных предсказаний, основанный на теории универсального портфеля, позволяющий получать надежные прогнозы без ручной оптимизации параметров.