Наука — Страница 109

Поиск оптимальных решений: NeuroPareto для сложных задач

05.02.2026 от Денис Аветисян

Новый подход NeuroPareto позволяет эффективно находить наилучшие варианты в задачах с множеством критериев и огромным пространством параметров.

Обратное моделирование: новый подход к решению сложных задач

05.02.2026 от Денис Аветисян

В статье представлен эффективный байесовский фреймворк, сочетающий суррогатное моделирование и байесовское обратное моделирование для повышения точности и скорости решения обратных задач.

Устойчивое обучение с подкреплением от обратной связи: новый подход к стабилизации

05.02.2026 от Денис Аветисян

Обучаемый агент SAFE поддерживает необходимый уровень энтропии в процессе работы, динамически регулируя величину расхождения Кулбака-Лейблера и обеспечивая стабильное обучение, что отражается в траектории вознаграждения, снижении потерь и контролируемой длине завершения.

Исследователи разработали метод, повышающий стабильность обучения моделей, управляемых обратной связью от человека, и снижающий риск нежелательного поведения.

Обучение с подкреплением: когда ограничения меняют горизонт планирования

05.02.2026 от Денис Аветисян

$В рамках исследования стохастических горизонтов принятия решений (SDH) демонстрируется, как модуляция планируемого горизонта посредством вероятностей продолжения α приводит к переменному дисконтированию [latex]\tilde{\gamma}=\gamma\alpha[/latex] и взвешенной по выживанию отдаче [latex]\tilde{r}=\alpha r[/latex], что находит применение в задачах управления человекоподобной локомоцией Hyfydy, где оптимизация ходьбы с минимальными усилиями ограничена целевой скоростью, а также в средах Safety Gymnasium, сочетающих награды за достижение целей со стандартизированными затратами, связанными с опасностями.$

Новый подход позволяет стабилизировать и ускорить обучение в задачах с ограничениями, адаптируя горизонт планирования в зависимости от их нарушения.

Надежное управление в условиях неопределенности: новый подход к системам с мультипликативным шумом

05.02.2026 от Денис Аветисян

$Динамическое изменение размера выборки [latex]n^{\<i>}[/latex] в стратегиях DRO позволяет сформировать консервативное распределение активов в периоды высокой волатильности, эффективно ограничивая риски снижения капитала по сравнению со статическими подходами с фиксированным [latex]n^{\</i>}[/latex].$

В статье представлена методика обеспечения устойчивого управления системами, подверженными шумам и неопределенностям в распределении вероятностей, использующая принципы робастного управления и теорию Вассерштейна.