Обучение роботов-манипуляторов: новый подход к эффективному освоению сложных задач
![Политика управления, первоначально обученная в масштабной симуляции и затем доработанная в реальном времени посредством SOFT-FLOW - с накоплением приблизительно 15 минут данных за каждые 1000 шагов градиентного спуска, после 3000 шагов разминки критика - демонстрирует временное снижение производительности на начальном этапе доработки актора, вызванное увеличением исследования, за которым следует значительное улучшение скорости вращения ([latex]RPM[/latex]) и кумулятивного вращения по траектории, что подтверждает эффективность онлайн-обучения с переносом знаний.](https://arxiv.org/html/2602.09580v1/images/cube_plot.png)
Исследователи предлагают инновационный метод, позволяющий значительно сократить время и ресурсы, необходимые для обучения роботов выполнению деликатных манипуляций в реальном мире.



