Ловушка Ожидаемой Выгоды: Почему Обучение с Подкреплением Застревает в Ограниченном Наборе Решений

Новое исследование выявляет структурную причину ‘коллапса режимов’ в обучении с подкреплением и предлагает эффективный метод для восстановления разнообразия стратегий.


