Плавная оптимизация последовательностей: новый подход к обучению языковых моделей
Исследователи предложили метод Soft Sequence Policy Optimization (SSPO), повышающий стабильность и эффективность обучения больших языковых моделей за счет сочетания геометрической агрегации и плавного управления на уровне токенов.
![В ходе анализа временных рядов рисков минимально-дисперсионных портфелей (MVP) за период с 2000 по 2023 год, рассчитанных для различных объемов выборки акций (100, 300 и 500 крупнейших по капитализации) с использованием Ridgelet1 и Ridgelet2, установлено, что величина временного окна [latex]T[/latex] (22 и 63) оказывает существенное влияние на динамику и уровень этих рисков.](https://arxiv.org/html/2602.19462v1/x9.png)
![Изученная граница принятия решений отображает параметр θ, демонстрируя предпочтение активного вмешательства ([latex]Q>0[/latex], выделено красным) в противовес стратегии выжидания ([latex]Q<0[/latex], выделено зеленым).](https://arxiv.org/html/2602.19419v1/decision_boundary.png)
![Численное моделирование для [latex]\eta = 0.5[/latex] и [latex]\eta = 0.05[/latex] демонстрирует решения для величины [latex]\mathcal{R} = \mathbb{E}[\mathcal{R}][/latex], наряду с аналитическим решением для невозмущенной правой части, что позволяет оценить влияние параметров на рассматриваемую систему.](https://arxiv.org/html/2602.19869v1/x2.png)