Обучение с подкреплением: Новый взгляд на генерацию траекторий
![Анализ согласованности агента и критика показывает, что для каждого целевого значения вознаграждения агент генерирует 50 скрытых планов, среднее вознаграждение которых по оси Y демонстрирует стабильность, в то время как критик, используя те же планы для траекторий из набора данных, оценивает их предсказанное вознаграждение, при этом точки с более высокими значениями ELBO, расположенные ближе к идеальной линии [latex]y=x[/latex], указывают на более надежные прогнозы, а сравнение оригинальных данных (синим цветом) с данными, собранными онлайн (красным цветом), позволяет оценить эффективность стратегии обучения.](https://arxiv.org/html/2512.21527v1/x4.png)
В статье представлена методика, позволяющая более эффективно исследовать пространство действий и оптимизировать стратегии обучения с подкреплением, используя генеративные модели для анализа полных траекторий.
![Динамика обучения алгоритмов Leash и Leash-C при [latex]L_t = 4\text{k}[/latex] демонстрирует, что Leash автоматически регулирует коэффициент адаптивного штрафа λ для ускорения сходимости и стабилизации выполнения ограничений, что отражается в показателях удовлетворенности обучающей выборке, величине адаптивного штрафа и средней длине токенов.](https://arxiv.org/html/2512.21540v1/x2.png)

![Предложенная методика диффузионного предсказания действий (FDP) формирует итоговую оценку, взвешивая прогнозы множества экспертов по диффузии на каждом шаге шумоподавления, что позволяет моделировать сложные многомодальные распределения и адаптироваться за счёт селективной настройки или добавления диффузионных компонентов, направляя итеративный процесс шумоподавления для генерации действия [latex]\mathbf{a}_{t}[/latex].](https://arxiv.org/html/2512.21898v1/x1.png)
