Управление Токенами и Последовательностями: Новый Подход к Обучению Языковых Моделей с Подкреплением

Исследователи предлагают инновационный метод, позволяющий стабилизировать и повысить эффективность обучения больших языковых моделей с подкреплением, особенно в задачах, требующих логических рассуждений.

![В исследовании сравнивается коэффициент производительности системы TACTS при различных уровнях загруженности сети - низком, среднем и высоком - для индуцированных транспортных потоков [latex]f_{c} \in \{1.0, 10.0, 30.0\}[/latex], применительно к трем городским сетям: Анахайм, Су-Фолс и Чикаго, демонстрируя её адаптивность к изменяющимся условиям дорожного движения.](https://arxiv.org/html/2601.05375v1/tacts_perf_ratio_cs_random_comp_new.png)
![Оптимальный план переноса [latex]\pi^{\*}\_{0,1}[/latex] для синтетических маржиналов GBM демонстрирует разреженную концентрацию вероятностной массы, при этом диагональная структура отражает ограничение мартингала [latex]\mathbb{E}[X\_{1}|X\_{0}]=X\_{0}[/latex], а сконцентрированный пик вблизи точки [latex](x\_{0},x\_{1})=(5500,6500)[/latex] указывает на высоковероятный путь перехода.](https://arxiv.org/html/2601.05290v1/x5.png)
