Управление Токенами и Последовательностями: Новый Подход к Обучению Языковых Моделей с Подкреплением

Автор: Денис Аветисян


Исследователи предлагают инновационный метод, позволяющий стабилизировать и повысить эффективность обучения больших языковых моделей с подкреплением, особенно в задачах, требующих логических рассуждений.

"Покупай на слухах, продавай на новостях". А потом сиди с акциями никому не известной биотех-компании. Здесь мы про скучный, но рабочий фундаментал.

Бесплатный Телеграм канал
Таблица 1 демонстрирует, что предложенный метод DHPO, независимо от используемой стратегии смешивания - усредненной (DHPO-A) или основанной на энтропии (DHPO-E) - последовательно превосходит другие алгоритмы по всем показателям, причем DHPO демонстрирует наилучшие результаты, выделенные полужирным шрифтом.
Таблица 1 демонстрирует, что предложенный метод DHPO, независимо от используемой стратегии смешивания — усредненной (DHPO-A) или основанной на энтропии (DHPO-E) — последовательно превосходит другие алгоритмы по всем показателям, причем DHPO демонстрирует наилучшие результаты, выделенные полужирным шрифтом.

Представлен Dynamic Hybrid Policy Optimization (DHPO) — алгоритм, комбинирующий оценки важности на уровне токенов и последовательностей для улучшения обучения с подкреплением.

Оптимизация больших языковых моделей с подкреплением (RL) в задачах рассуждения сталкивается с дилеммой между точностью на уровне токенов и стабильностью на уровне последовательностей. В данной работе, ‘Orchestrating Tokens and Sequences: Dynamic Hybrid Policy Optimization for RLVR’, предложен метод Dynamic Hybrid Policy Optimization (DHPO), объединяющий преимущества как токеновых, так и последовательных оценок важности в единой оптимизационной задаче. Эксперименты на математических бенчмарках с моделями Qwen3 показали, что DHPO превосходит существующие алгоритмы GRPO и GSPO, обеспечивая более стабильное и эффективное обучение. Возможно ли дальнейшее расширение принципов гибридной оптимизации для решения еще более сложных задач рассуждения и генерации?


Преодоление Логических Барьеров в Больших Языковых Моделях

Несмотря на впечатляющие возможности больших языковых моделей, таких как серия Qwen3, достижение надежного и проверяемого рассуждения остается ключевой проблемой. Эти модели демонстрируют способность генерировать связные и грамматически правильные тексты, однако их способность к логическому выводу, решению сложных задач и проверке истинности информации зачастую ограничена. Хотя модели способны имитировать рассуждения, основанные на статистических закономерностях в данных, им не хватает подлинного понимания и способности к абстрактному мышлению. Это приводит к ошибкам в рассуждениях, особенно в ситуациях, требующих критического анализа и применения знаний в новых контекстах. Разработка методов, позволяющих гарантировать достоверность и обоснованность выводов, сделанных этими моделями, является важнейшей задачей в области искусственного интеллекта.

Традиционные методы обучения с подкреплением сталкиваются со значительными трудностями при оптимизации больших языковых моделей. Проблема заключается в чрезвычайно высокой размерности пространства параметров таких моделей, что делает исследование оптимальных стратегий невероятно сложным и ресурсоемким. Более того, формулирование адекватной функции вознаграждения, способной точно отразить желаемое поведение модели и избежать нежелательных последствий, представляет собой отдельную задачу. Сложные структуры вознаграждения, требующие учета множества факторов и нюансов, усугубляют проблему, делая процесс обучения нестабильным и непредсказуемым. В результате, даже при использовании передовых алгоритмов, достижение надежного и верифицируемого рассуждения в больших языковых моделях остается серьезной научной задачей.

Групповая Оптимизация Политики: GRPO и GSPO

Групповая относительная оптимизация политики (GRPO) и групповая последовательная оптимизация политики (GSPO) развивают базовый алгоритм Proximal Policy Optimization (PPO) путем включения коэффициентов важности на уровне токенов и последовательностей соответственно. GRPO вычисляет отношение важности для каждого токена, позволяя более точно оценить вклад каждого токена в общую политику. GSPO, в свою очередь, оценивает важность каждой последовательности токенов, что позволяет оптимизировать генерацию текста на уровне последовательностей. Использование коэффициентов важности позволяет GRPO и GSPO более эффективно фокусировать процесс обучения на наиболее значимых компонентах выходных данных языковой модели (LLM), улучшая стабильность и эффективность обучения с подкреплением.

Методы GRPO и GSPO направлены на повышение эффективности обучения с подкреплением и стабильности процесса за счет концентрации оптимизации на наиболее значимых элементах выходных данных языковой модели. Вместо равномерного обновления всех параметров, эти подходы используют важностные коэффициенты для токенов (GRPO) и последовательностей (GSPO), что позволяет уделять больше внимания тем частям генерации, которые оказывают наибольшее влияние на вознаграждение. Такой подход позволяет добиться более быстрой сходимости и снизить вероятность расхождения обучения, особенно в задачах с большими языковыми моделями, где оптимизация может быть сложной и требовать значительных вычислительных ресурсов.

Методы GRPO и GSPO строятся на базе алгоритма Proximal Policy Optimization (PPO), что позволяет им унаследовать его преимущества в плане стабильности обучения. PPO известен своей способностью избегать чрезмерно больших шагов обновления политики, которые могут привести к резкому ухудшению производительности. GRPO и GSPO расширяют эту стабильность, добавляя механизмы, специально разработанные для решения задач, связанных с оптимизацией больших языковых моделей (LLM). Эти механизмы учитывают специфику LLM, такие как высокая размерность пространства параметров и сложность зависимостей между токенами, что позволяет более эффективно и надежно обучать модели в задачах обучения с подкреплением.

DHPO: Динамическая Гибридная Оптимизация Политики

Динамическая гибридная оптимизация политики (DHPO) преодолевает ограничения одноуровневой оптимизации, объединяя коэффициенты важности как на уровне токенов, так и на уровне последовательностей. Традиционные методы часто фокусируются исключительно на оценке вероятности каждого токена или всей последовательности, что может приводить к неэффективности в сложных задачах генерации. DHPO, напротив, использует информацию с обоих уровней, что позволяет более точно оценить вклад каждого элемента в общую производительность модели. Коэффициенты важности на уровне токенов отражают значимость конкретного токена в контексте текущей последовательности, в то время как коэффициенты на уровне последовательности оценивают общую полезность сгенерированной последовательности. Интеграция этих двух типов коэффициентов позволяет DHPO более эффективно направлять процесс обновления политики и улучшать качество генерируемого текста.

Для эффективного объединения сигналов важности на уровне токенов и последовательностей, DHPO использует методы усредненного смешивания (Averaged Mixing) и обрезки, специфичной для ветвей (Branch-Specific Clipping). Усредненное смешивание позволяет формировать взвешенную сумму градиентов, полученных на обоих уровнях, что способствует более стабильному обучению. Обрезка, специфичная для ветвей, предотвращает чрезмерное влияние отдельных токенов или последовательностей на процесс обновления политики, ограничивая значения градиентов для улучшения стабильности и предотвращения расхождения. Комбинация этих методов позволяет DHPO эффективно использовать информацию с обоих уровней, оптимизируя процесс обучения и повышая производительность модели.

Инновационным подходом в DHPO является исследование различных стратегий взвешивания, в частности, взвешивания на основе энтропии (Entropy-Guided Mixing). Данный метод модулирует вклад токенового и последовательного уровней, основываясь на энтропии токенов. Высокая энтропия токена указывает на неопределенность в предсказании, что увеличивает вклад токенового уровня для более точной оптимизации. Напротив, низкая энтропия токена указывает на уверенность, что усиливает влияние последовательного уровня, обеспечивая более стабильные обновления политики. Таким образом, вклад каждого уровня динамически регулируется на основе энтропии токенов, что позволяет DHPO адаптироваться к различным характеристикам входных данных и повысить эффективность обучения.

Оценка и Перспективы Развития

Тщательная оценка производительности DHPO осуществлялась с использованием фреймворка SimpleRL, что позволило продемонстрировать его значительный потенциал в улучшении способностей больших языковых моделей к логическому мышлению. Данный подход позволил не только измерить эффективность DHPO в решении задач, требующих последовательного рассуждения, но и выявить его преимущества перед существующими методами оптимизации. Результаты экспериментов подтверждают, что DHPO способен значительно повысить точность и надежность ответов языковых моделей, открывая новые возможности для их применения в сложных областях, таких как математическое моделирование и анализ данных.

Интеграция оптимизации на уровне токенов и последовательностей, в сочетании с адаптивными стратегиями взвешивания, продемонстрировала обнадеживающие результаты в задачах, требующих проверяемого рассуждения. При использовании языковой модели Qwen3-30B-A3B-Base, данный подход достиг точности в 34.4% на бенчмарке AIME24 и 26.5% на AIME25. Такой комбинированный подход позволяет более эффективно учитывать как локальные, так и глобальные зависимости в процессе рассуждения, что приводит к повышению надежности и точности ответов в сложных логических задачах. Результаты свидетельствуют о потенциале данной методики для улучшения способностей больших языковых моделей к решению задач, требующих строгой верификации и обоснования.

В ходе сравнительного анализа производительности алгоритма DHPO на математических задачах, было зафиксировано существенное превосходство над методами GRPO и GSPO. В частности, точность решения задач на бенчмарке AIME24 увеличилась с 22.5% до 34.4%, а на AIME25 — с 14.6% до 26.5%. В среднем, DHPO демонстрирует прирост точности в 4.9% по сравнению с GRPO и в 4.3% по сравнению с GSPO, что подтверждает его эффективность в задачах, требующих логического мышления и математических вычислений. Данные результаты указывают на перспективность применения DHPO для повышения точности и надежности языковых моделей в решении сложных математических задач.

Дальнейшие исследования направлены на усовершенствование стратегий взвешивания, используемых в DHPO, с целью повышения эффективности алгоритма. Планируется изучить более сложные схемы, учитывающие различные аспекты логических рассуждений и контекста задачи. Кроме того, особое внимание будет уделено масштабированию DHPO для работы с ещё более крупными и сложными языковыми моделями, что позволит расширить сферу его применения и добиться более высоких результатов в задачах, требующих глубокого понимания и логического анализа. Успешная реализация этих направлений позволит значительно улучшить способность моделей к верифицируемым рассуждениям и откроет новые возможности для решения сложных задач в области искусственного интеллекта.

Представленная работа демонстрирует стремление к математической чистоте в области обучения с подкреплением для больших языковых моделей. Алгоритм DHPO, объединяющий оценки важности на уровне токенов и последовательностей, представляет собой элегантное решение проблемы нестабильности, часто возникающей при оптимизации политик. Он позволяет достичь более высокой производительности на математических бенчмарках, что подтверждает корректность подхода. Как однажды заметил Джон Маккарти: «Всякий интеллект должен уметь делать то, что не может быть сделано без интеллекта». Данное утверждение находит отражение в разработке DHPO, поскольку алгоритм требует точного анализа и оптимизации для эффективного управления языковыми моделями и достижения результатов, недостижимых при использовании более простых методов.

Куда Далее?

Представленная работа, хоть и демонстрирует улучшение стабильности обучения языковых моделей с подкреплением, лишь приоткрывает завесу над истинной сложностью задачи. Элегантность предложенного подхода, заключающаяся в гармоничном сочетании токеновых и последовательных оценок важности, не должна заслонять фундаментальный вопрос: достаточно ли мы понимаем природу «вознаграждения» для столь сложных систем? Оптимизация, как известно, лишь отражает структуру целевой функции, а не её внутреннюю согласованность.

Будущие исследования, вероятно, должны сосредоточиться на разработке более строгих метрик для оценки качества вознаграждений, а также на методах, позволяющих выявлять и устранять противоречия в сигналах подкрепления. Успех в этой области потребует не просто улучшения алгоритмов оптимизации, но и глубокого понимания когнитивных процессов, лежащих в основе математического рассуждения. В противном случае, мы рискуем лишь усовершенствовать инструмент, не понимая, что им измеряем.

Представляется перспективным изучение адаптивных стратегий выбора между токеновым и последовательным анализом, позволяющих динамически подстраиваться к особенностям решаемой задачи. Кроме того, необходимо исследовать возможность интеграции методов формальной верификации в процесс обучения, чтобы гарантировать корректность принимаемых решений. Иначе говоря, необходимо стремиться к доказательствам, а не к эмпирическим наблюдениям.


Оригинал статьи: https://arxiv.org/pdf/2601.05607.pdf

Связаться с автором: https://www.linkedin.com/in/avetisyan/

Смотрите также:

2026-01-12 20:05