Обучение с подкреплением: Новый взгляд на генерацию траекторий

Анализ согласованности агента и критика показывает, что для каждого целевого значения вознаграждения агент генерирует 50 скрытых планов, среднее вознаграждение которых по оси Y демонстрирует стабильность, в то время как критик, используя те же планы для траекторий из набора данных, оценивает их предсказанное вознаграждение, при этом точки с более высокими значениями ELBO, расположенные ближе к идеальной линии [latex]y=x[/latex], указывают на более надежные прогнозы, а сравнение оригинальных данных (синим цветом) с данными, собранными онлайн (красным цветом), позволяет оценить эффективность стратегии обучения.

В статье представлена методика, позволяющая более эффективно исследовать пространство действий и оптимизировать стратегии обучения с подкреплением, используя генеративные модели для анализа полных траекторий.

Роботы учатся жонглировать задачами: модульные политики на основе диффузионных моделей

Предложенная методика диффузионного предсказания действий (FDP) формирует итоговую оценку, взвешивая прогнозы множества экспертов по диффузии на каждом шаге шумоподавления, что позволяет моделировать сложные многомодальные распределения и адаптироваться за счёт селективной настройки или добавления диффузионных компонентов, направляя итеративный процесс шумоподавления для генерации действия [latex]\mathbf{a}_{t}[/latex].

Новый подход к многозадачному обучению позволяет роботам гибко адаптироваться и эффективно выполнять сложные манипуляции, разбивая их на специализированные навыки.