Управление под риском: Связь между принципами максимума и динамического программирования

В статье установлена связь между принципом максимума и принципом динамического программирования для задач стохастического оптимального управления с учетом риска, что позволяет разрабатывать более эффективные стратегии контроля в условиях неопределенности.

Управление рисками и временем: новый подход к обучению с подкреплением

В модели принятия решений с учётом взвешенной полезности в условиях риска (GBWM) наблюдается явление обращения предпочтений, где вероятность достижения целей для агента, не склонного к риску (риск-нейтрального), и агента, чувствительного к риску, различается в зависимости от подхода к дисконтированию и особенностей среды, что демонстрирует сложность формирования последовательных стратегий в условиях неопределенности.

Исследование предлагает унифицированную структуру для обучения с подкреплением, позволяющую учитывать как временные факторы, так и чувствительность к риску, что повышает эффективность в сложных условиях.