Управление Рисками в Обучении с Подкреплением: Новый Подход к Волатильности
![Оптимальные стратегии управления, протестированные в среде без шумов при неоднородной волатильности [latex]2.3[/latex], демонстрируют, что величина неприятия риска β напрямую влияет на траекторию движения, определяя баланс между скоростью и стабильностью.](https://arxiv.org/html/2602.12030v1/meanvar.png)
Исследование предлагает инновационный метод учета не только величины риска, но и времени получения вознаграждения в задачах обучения с подкреплением, что позволяет создавать более эффективные стратегии для финансовых приложений.
![Адаптивный алгоритм трендового следования демонстрирует сопоставимую кумулятивную доходность в [latex] \sim 140\% [/latex] в течение периода оценки при различных схемах распределения активов, при этом конфигурация 70/30 обеспечивает незначительно более высокие пиковые значения доходности при сопоставимом профиле просадок.](https://arxiv.org/html/2602.11708v1/chart_5050.png)
![Оптимальное назначение элементов достигается минимизацией евклидова расстояния [latex]\|x-x\_k\|\_2[/latex] между точкой данных <i>x</i> и ее ближайшим представителем <i>x\_k</i>, что определяет меру близости в пространстве признаков.](https://arxiv.org/html/2602.10515v1/x4.png)
