Управление рисками и временем: новый подход к обучению с подкреплением

В модели принятия решений с учётом взвешенной полезности в условиях риска (GBWM) наблюдается явление обращения предпочтений, где вероятность достижения целей для агента, не склонного к риску (риск-нейтрального), и агента, чувствительного к риску, различается в зависимости от подхода к дисконтированию и особенностей среды, что демонстрирует сложность формирования последовательных стратегий в условиях неопределенности.

Исследование предлагает унифицированную структуру для обучения с подкреплением, позволяющую учитывать как временные факторы, так и чувствительность к риску, что повышает эффективность в сложных условиях.

Умные светофоры: Гарантированно безопасное управление городским трафиком

Архитектура STREAM-RL объединяет неопределенность-ориентированное прогнозирование на основе PU-GAT+, устойчивое к зависимостям обнаружение аномалий с помощью CRFN-BY и сертифицированное безопасное обучение с подкреплением LyCon-WRL+, при этом распространение неопределенности между модулями осуществляется посредством специальных связей.

Новый подход сочетает в себе точное прогнозирование, надежное обнаружение аномалий и алгоритмы обучения с подкреплением, чтобы сделать движение в городах более безопасным и предсказуемым.

Двойственность в оптимизации: Гарантии для надёжных вычислений

В статье представлена новая схема двойственности, обеспечивающая чёткие гарантии для решений задач математической оптимизации и открывающая возможности для создания надёжных предметно-ориентированных языков.