Плавная оптимизация последовательностей: новый подход к обучению языковых моделей
Исследователи предложили метод Soft Sequence Policy Optimization (SSPO), повышающий стабильность и эффективность обучения больших языковых моделей за счет сочетания геометрической агрегации и плавного управления на уровне токенов.

![В ходе анализа временных рядов рисков минимально-дисперсионных портфелей (MVP) за период с 2000 по 2023 год, рассчитанных для различных объемов выборки акций (100, 300 и 500 крупнейших по капитализации) с использованием Ridgelet1 и Ridgelet2, установлено, что величина временного окна [latex]T[/latex] (22 и 63) оказывает существенное влияние на динамику и уровень этих рисков.](https://arxiv.org/html/2602.19462v1/x9.png)