Адаптация политик обучения с подкреплением: новый подход к преодолению разрыва между доменами

Исследователи предлагают метод, позволяющий эффективно переносить навыки, полученные в одной среде, в другую, даже при значительных различиях в динамике.

Исследователи предлагают метод, позволяющий эффективно переносить навыки, полученные в одной среде, в другую, даже при значительных различиях в динамике.
![В основе DecompSSM лежит метод декомпозиционного прогнозирования, использующий три ветви GT-SSM для анализа тренда, сезонности и остатков, дополненные вспомогательными задачами, обеспечивающими ортогональность и реконструкцию, при этом ключевым элементом является Gated-Time SSM (GT-SSM) с адаптивным предсказателем шага (ASP), основанным на архитектуре S5 [smith\_s5\_2023].](https://arxiv.org/html/2602.05389v1/figs/model.png)
В статье представлена методика, позволяющая повысить точность прогнозирования многомерных временных рядов за счет адаптивного разложения и учета глобального контекста.

Новый метод позволяет эффективно настраивать модели движения автомобилей, повышая точность симуляций и безопасность дорожного движения.
В статье представлены теоретические результаты, обеспечивающие быструю адаптацию алгоритмов обучения к данным, которые меняются со временем.
![Карты алмазных потоков представляют собой стохастические карты потоков, позволяющие выполнять одношаговые «прогнозы» траектории потока к потенциальным конечным точкам, что обеспечивает эффективное исследование, поиск и навигацию, при этом предложены два варианта реализации: карты апостериорных потоков, дистиллирующие потоки GLASS в карту потоков [latex]X\_{s,r}(\bar{x}|x\_{t},t)[/latex] для точной выборки из апостериорного распределения, и взвешенные карты алмазных потоков, позволяющие использовать стандартные карты потоков посредством простого добавления шума, что повышает эффективность выборки (ESS) и улучшает выравнивание изображений, как демонстрируется на примерах запросов, включающих](https://arxiv.org/html/2602.05993v1/x1.png)
В статье представлен инновационный метод, позволяющий эффективно согласовывать цели генеративных моделей с желаемым поведением, используя стохастические карты потока.