Обучение роботов без данных: Новый подход к исследованию поведения

Алгоритм FB-MEBE, предназначенный для обучения с подкреплением без предварительной подготовки, собирает данные, действуя на основе стратегий, максимизирующих энтропию достигнутого распределения поведения, и использует эти данные для обучения политик с помощью регуляризованной функции потерь, объединяющей улучшение политики на основе функции ценности действий FB ( [latex]Q_{FB}[/latex] ) и критика ( [latex]Q_{reg}[/latex] ), обученного на основе регуляризатора вознаграждения, для формирования осмысленных моделей локомоции.

Исследователи разработали алгоритм, позволяющий четвероногим роботам осваивать новые навыки без использования предварительно собранных данных или шаблонов движений.

Оптимизация мультикритериальных задач: новый подход к сумме Парето

Сведение задачи нахождения парето-оптимальных решений к ограниченной монотонной свертке вида min-plus позволяет эффективно восстановить оптимальное решение, демонстрируя взаимосвязь между этими подходами и открывая возможности для разработки новых алгоритмов оптимизации.

Исследователи предложили эффективный алгоритм приближенного вычисления суммы Парето, открывающий возможности для более быстрого решения сложных оптимизационных задач.