Адаптивные прогнозы без настройки: новый подход к онлайн-конформным предсказаниям

В статье представлен метод онлайн-конформных предсказаний, основанный на теории универсального портфеля, позволяющий получать надежные прогнозы без ручной оптимизации параметров.

![Предлагаемый трехэтапный фреймворк обучения EG-SPO сначала использует демонстрации экспертов для предварительной настройки политики с помощью чистого SFT-подхода, затем генерирует траектории модели, вычисляя энтропию для каждого токена, и, наконец, направляет токены с высокой энтропией на полное обновление PPO для поощрения исследования, а токены с низкой энтропией - на PPO с φ-атенюацией для снижения дисперсии и сохранения знаний, при этом обе ветви сохраняют преимущество [latex]A_{t}[/latex] для обеспечения градиентов, учитывающих преимущество и избегающих усиления уверенных ошибок.](https://arxiv.org/html/2602.03309v1/figures/fig1_eg-spo.png)

