Адаптация политик обучения с подкреплением: новый подход к преодолению разрыва между доменами

Алгоритм STC обучается в два этапа: сначала моделируется прямая динамика, функция вознаграждения и обратная политика для захвата двунаправленной динамики переходов в целевом домене, а затем, используя данные из исходного и целевого доменов, агент обучения с подкреплением корректирует действия и вознаграждения в исходном домене с помощью обратной политики и, дополнительно, селективно корректирует переходы из исходного домена, чтобы лучше соответствовать целевому.

Исследователи предлагают метод, позволяющий эффективно переносить навыки, полученные в одной среде, в другую, даже при значительных различиях в динамике.

Прогнозирование временных рядов: новый подход к разложению и моделированию

В основе DecompSSM лежит метод декомпозиционного прогнозирования, использующий три ветви GT-SSM для анализа тренда, сезонности и остатков, дополненные вспомогательными задачами, обеспечивающими ортогональность и реконструкцию, при этом ключевым элементом является Gated-Time SSM (GT-SSM) с адаптивным предсказателем шага (ASP), основанным на архитектуре S5 [smith\_s5\_2023].

В статье представлена методика, позволяющая повысить точность прогнозирования многомерных временных рядов за счет адаптивного разложения и учета глобального контекста.

Карты вознаграждений: Новый подход к обучению генеративных моделей

Карты алмазных потоков представляют собой стохастические карты потоков, позволяющие выполнять одношаговые «прогнозы» траектории потока к потенциальным конечным точкам, что обеспечивает эффективное исследование, поиск и навигацию, при этом предложены два варианта реализации: карты апостериорных потоков, дистиллирующие потоки GLASS в карту потоков [latex]X\_{s,r}(\bar{x}|x\_{t},t)[/latex] для точной выборки из апостериорного распределения, и взвешенные карты алмазных потоков, позволяющие использовать стандартные карты потоков посредством простого добавления шума, что повышает эффективность выборки (ESS) и улучшает выравнивание изображений, как демонстрируется на примерах запросов, включающих

В статье представлен инновационный метод, позволяющий эффективно согласовывать цели генеративных моделей с желаемым поведением, используя стохастические карты потока.