Наука — Страница 22

Безопасное обучение агентов в реальном времени: новый подход

22.02.2026 от Денис Аветисян

$Предложенная схема обучения с подкреплением CT-MARL, основанная на эпиграфах, объединяет внешнюю оптимизацию для достижения баланса между суммарной дисконтированной стоимостью и ограничениями безопасности с внутренней оптимизацией, одновременно обучающей сети оценки возвратов [latex]V^{\text{ret}}\_{\psi}(x)[/latex] и сети оценки ограничений [latex]V^{\text{cons}}\_{\phi}(x)[/latex] в сочетании с оптимальным вспомогательным состоянием [latex]z^{\*}[/latex], что позволяет улучшать политики на основе функции преимущества.$

Исследователи предлагают инновационную методику для обучения взаимодействующих агентов в непрерывном времени, гарантирующую соблюдение ограничений безопасности.

Безопасное обучение агентов в реальном времени: новый подход

Непрерывное обучение с учетом неопределенностей: новый подход к управлению сложными системами

Борьба за рынок: Оптимизация размещения предприятий в условиях конкуренции

Управление стохастическими интегральными уравнениями: новый подход

Локальность в кооперативных агентах: новый взгляд на масштабируемость