Обучение языковых моделей: от подражания к эффективному вознаграждению

Автор: Денис Аветисян


Новый подход к постобработке больших языковых моделей позволяет улучшить обобщающую способность, исследование пространства решений и предотвратить катастрофическое забывание.

"Покупай на слухах, продавай на новостях". А потом сиди с акциями никому не известной биотех-компании. Здесь мы про скучный, но рабочий фундаментал.

Бесплатный Телеграм канал
В предложенном подходе, названном GFT, вычисляются стандартизированные относительные преимущества [latex]A_{k}[/latex] на основе гибридных групп ответов - демонстраций экспертов, результатов обучения с учителем и выборок из rollouts - а для ограничения весов важности применяется динамическая коррекция коэффициентов посредством обрезки градиентов для каждого токена.
В предложенном подходе, названном GFT, вычисляются стандартизированные относительные преимущества A_{k} на основе гибридных групп ответов — демонстраций экспертов, результатов обучения с учителем и выборок из rollouts — а для ограничения весов важности применяется динамическая коррекция коэффициентов посредством обрезки градиентов для каждого токена.

В статье представлена методика групповой тонкой настройки (Group Fine-Tuning, GFT), использующая контрастное обучение и стабилизацию градиентов для повышения эффективности обучения.

Несмотря на широкое применение контролируемого обучения и обучения с подкреплением для дообучения больших языковых моделей, обеспечение эффективного внедрения знаний и устойчивой обобщающей способности остаётся сложной задачей. В данной работе, озаглавленной ‘GFT: From Imitation to Reward Fine-Tuning with Unbiased Group Advantages and Dynamic Coefficient Rectification’, проводится анализ динамики обучения, показывающий, что контролируемое обучение можно интерпретировать как частный случай оптимизации по градиенту политики с разреженной наградой и нестабильными весами обратной вероятности. Для решения этих проблем предлагается Group Fine-Tuning (GFT) — унифицированный подход, использующий групстовое обучение с контрастивной нормализацией для снижения разреженности награды и адаптивное ограничение весов для стабилизации оптимизации. Сможет ли GFT стать основой для создания более надёжных и эффективных языковых моделей, способных к плавной интеграции с последующим обучением с подкреплением?


Пределы Традиционной Тонкой Настройки

Несмотря на эффективность контролируемого обучения с учителем (SFT) в передаче знаний посредством демонстраций экспертов, этот подход часто страдает от так называемой “зависимости от единственного пути”. Суть проблемы заключается в том, что модель, обученная на фиксированном наборе примеров, склонна воспроизводить лишь один, наиболее очевидный способ решения задачи, игнорируя потенциально более эффективные или креативные альтернативы. Это ограничивает способность модели к адаптации и инновациям, особенно в сложных и многогранных сценариях, где существует множество допустимых решений. Вместо исследования широкого спектра возможностей, модель концентрируется на повторении заученных образцов, что препятствует ее развитию и способности к генерации новых, неожиданных результатов.

В процессе стандартной тонкой настройки с учителем (SFT) оптимизация часто сталкивается с проблемой взрыва градиентов, что приводит к нестабильности обучения. Данное явление обусловлено расчетами весов важности, которые могут стать неустойчивыми при адаптации к новым данным. Неконтролируемый рост градиентов приводит к резким изменениям в параметрах модели, нарушая процесс обучения и затрудняя достижение оптимальных результатов. Для смягчения этой проблемы применяются различные техники, включая ограничение градиентов и использование более стабильных алгоритмов оптимизации, однако полное устранение риска взрыва градиентов остается сложной задачей в контексте SFT.

Катастрофическое забывание представляет собой серьезную проблему при адаптации нейронных сетей к новым данным. В процессе обучения на новой информации, модель может необратимо потерять знания, приобретенные ранее, что снижает её общую производительность и универсальность. Это происходит из-за того, что веса сети, настроенные для решения старых задач, изменяются при обучении на новых данных, приводя к искажению или полному уничтожению предыдущих представлений. Существующие методы, такие как регуляризация или повторное обучение, направлены на смягчение этой проблемы, но полностью предотвратить потерю знаний оказывается сложной задачей, особенно в условиях непрерывного обучения и ограниченных ресурсов.

Эксперименты с Qwen2.5-Math-1.5B на наборе данных Numina-Math показали, что обучение с подкреплением после предварительного обучения с учителем (SFT) приводит к катастрофическому забыванию, а сочетание SFT и GRPO не обеспечивает улучшения производительности по сравнению с использованием только GRPO.
Эксперименты с Qwen2.5-Math-1.5B на наборе данных Numina-Math показали, что обучение с подкреплением после предварительного обучения с учителем (SFT) приводит к катастрофическому забыванию, а сочетание SFT и GRPO не обеспечивает улучшения производительности по сравнению с использованием только GRPO.

Групповая Дообучающая Настройка: Единый Подход

Групповая дообучающая настройка (GFT) расширяет возможности как Supervised Fine-Tuning (SFT), так и обучения с подкреплением, генерируя разнообразные группы ответов. В отличие от традиционных методов, которые оперируют с единственным путем генерации, GFT позволяет исследовать множество альтернативных реакций на один и тот же запрос. Это позволяет снизить зависимость от начальной траектории эксперта и преодолеть ограничения, связанные с обучением на ограниченном наборе данных или предвзятостью, свойственной единственному пути генерации. Такой подход способствует более надежному и гибкому обучению модели, позволяя ей генерировать более разнообразные и соответствующие контексту ответы.

Групное обучение с подкреплением (Group Advantage Learning) в рамках GFT реализуется путем оценки сгенерированных ответов на основе вознаграждений, соответствующих заданным правилам, и стимулирования исследования пространства ответов за пределы первоначальной траектории эксперта. Вместо фокусировки на единственном наиболее вероятном ответе, GFT генерирует несколько вариантов, каждый из которых оценивается по степени соответствия заданным критериям. Это позволяет модели исследовать более широкий спектр возможных решений и выбирать те, которые лучше всего соответствуют заданным правилам, что приводит к повышению разнообразия и качества генерируемых ответов по сравнению с традиционными методами обучения, ориентированными на единственную траекторию.

В рамках Group Fine-Tuning (GFT) реализована динамическая коррекция коэффициентов (Dynamic Coefficient Rectification) для стабилизации процесса оптимизации. Данный механизм предотвращает взрыв градиентов (Gradient Explosion) путем отсечения весов важности (importance weights) для токенов с крайне низкой вероятностью. Это достигается путем ограничения максимального значения веса важности, что эффективно подавляет влияние маловероятных токенов на обновление параметров модели и обеспечивает более стабильное обучение, особенно при работе с разнообразными группами ответов, генерируемыми в процессе GFT.

Комбинирование методов SFT, GFT и GRPO обеспечивает стабильную оптимизацию и наилучшие результаты на Qwen2.5-Math-1.5B, подтверждая высокую совместимость GFT и эффективное взаимодействие между SFT и GRPO.
Комбинирование методов SFT, GFT и GRPO обеспечивает стабильную оптимизацию и наилучшие результаты на Qwen2.5-Math-1.5B, подтверждая высокую совместимость GFT и эффективное взаимодействие между SFT и GRPO.

Подтверждение Эффективности GFT: Улучшенное Математическое Рассуждение

Модель GFT продемонстрировала значительное улучшение результатов в задачах, требующих математического рассуждения, достигнув передовых показателей на 11 эталонных наборах данных. К ним относятся AMC23, College Math, Gaokao Math, Minerva Math, TabMWP, OlympiadBench, Mmlu Stem, Sat Math, Mawps и Svamp. Данные результаты подтверждают эффективность GFT в решении широкого спектра математических задач различной сложности, от стандартных школьных до олимпиадного уровня. Показатели модели превосходят существующие аналоги на данных наборах, что свидетельствует о её способности к более точному и надежному математическому анализу и решению проблем.

Для строгой оценки производительности модели GFT в задачах математического рассуждения используется метрика Pass@K. Pass@K определяет долю случаев, когда модель выдаёт хотя бы один правильный ответ из K предложенных вариантов. В частности, для каждого математического примера генерируется K различных решений, и если хотя бы одно из них соответствует эталонному ответу, пример считается успешно решённым. Использование Pass@K позволяет получить количественную оценку точности модели в решении математических задач, учитывая возможность генерации нескольких вариантов ответов и оценивая вероятность получения хотя бы одного корректного решения.

Модель GFT демонстрирует эффективное противодействие катастрофическому забыванию благодаря стабилизации процесса обучения и стимулированию исследования пространства решений. Это подтверждается значительно более низким значением расхождения Кульбака-Лейблера (KL Divergence) по сравнению с моделью, обученной методом Supervised Fine-Tuning (SFT). Более низкое KL-расхождение указывает на меньший сдвиг в распределении выходных данных модели в процессе обучения, что свидетельствует о лучшем сохранении ранее полученных знаний и снижении риска потери производительности при изучении новых данных. Данный показатель количественно оценивает смягчение эффекта распределительного дрейфа, что является ключевым фактором в поддержании стабильной и надежной работы модели.

Мера расхождения распределений Кульбака-Лейблера показывает, что обучение с подкреплением (SFT) вызывает наибольший сдвиг от базовой модели, в то время как обучение с градиентным забыванием (GFT) значительно снижает этот эффект, эффективно предотвращая катастрофическое забывание.
Мера расхождения распределений Кульбака-Лейблера показывает, что обучение с подкреплением (SFT) вызывает наибольший сдвиг от базовой модели, в то время как обучение с градиентным забыванием (GFT) значительно снижает этот эффект, эффективно предотвращая катастрофическое забывание.

Влияние и Перспективы Развития

Достижение стабильности в процессе обучения и повышение способности к логическому мышлению, продемонстрированные технологией GFT, знаменуют собой важный прогресс в создании более надёжных и универсальных языковых моделей. Ранее сложные задачи, требующие глубокого понимания контекста и способности к выводам, часто приводили к нестабильности обучения и непредсказуемым результатам. GFT, благодаря своему подходу, позволяет значительно улучшить качество рассуждений модели, обеспечивая более последовательные и достоверные ответы. Это открывает новые возможности для применения языковых моделей в различных областях, от автоматического анализа данных и генерации текстов до разработки интеллектуальных помощников и систем поддержки принятия решений, где надежность и точность являются критически важными.

Принципы, лежащие в основе GFT — разнообразие, стабильность и исследование — оказываются универсальными и применимы к другим методам постобучения языковых моделей. Вместо фокусировки на конкретной архитектуре или задаче, GFT демонстрирует, что создание надежных и эффективных систем искусственного интеллекта требует сбалансированного подхода к генерации разнообразных ответов, поддержанию стабильности процесса обучения и активному исследованию новых возможностей. Эти принципы могут быть адаптированы и внедрены в различные парадигмы постобучения, такие как обучение с подкреплением на основе обратной связи от человека или дистилляция знаний, что позволит создавать более гибкие и адаптируемые модели, способные эффективно решать широкий спектр задач и демонстрировать улучшенную обобщающую способность.

Предстоящие исследования сосредоточены на масштабировании GFT до еще более крупных моделей, что позволит раскрыть весь потенциал алгоритма в решении сложных задач реального мира. Увеличение размеров модели позволит ей усваивать более широкий спектр знаний и демонстрировать улучшенные навыки рассуждения, что особенно важно для таких областей, как автоматизированный анализ данных, разработка интеллектуальных помощников и создание систем, способных к генерации сложного и связного текста. Параллельно с масштабированием, планируется изучение возможности применения GFT в специализированных областях, требующих высокой точности и надежности, например, в медицинской диагностике или финансовом прогнозировании, где даже незначительные улучшения могут привести к существенным результатам.

Изменение порога отсечения [latex]	au[/latex] влияет на количество отсекаемых токенов, при этом точность демонстрирует обратную U-образную зависимость: недостаточное отсечение приводит к нестабильности, а чрезмерное - к снижению эффективности обучения.
Изменение порога отсечения au влияет на количество отсекаемых токенов, при этом точность демонстрирует обратную U-образную зависимость: недостаточное отсечение приводит к нестабильности, а чрезмерное — к снижению эффективности обучения.

Исследование демонстрирует, что попытки улучшить обобщающую способность больших языковых моделей часто натыкаются на проблему катастрофического забывания. Авторы предлагают Group Fine-Tuning (GFT) как способ смягчить эту проблему, используя групповое контрастивное обучение и стабилизацию градиентов. В этом нет ничего удивительного; как заметил Тим Бернерс-Ли: «Веб никогда не был разработан как всеобъемлющая модель мира, а как способ связать информацию». По аналогии, GFT не стремится создать идеальную модель знаний, а предлагает прагматичный способ связать существующие знания, избегая при этом полной перестройки нейронных связей при обучении новым данным. Это напоминает о том, что даже самые элегантные архитектуры рано или поздно столкнутся с необходимостью компромиссов в реальных условиях эксплуатации.

Куда же дальше?

Предложенный подход к тонкой настройке, безусловно, добавляет ещё один уровень сложности в и без того запутанную картину обучения больших языковых моделей. Контрастивное обучение по группам и динамическая коррекция градиента — это, конечно, интересно, но история учит, что каждая «революционная» техника неизбежно превращается в техдолг. Защита от катастрофического забывания — благородная цель, однако, когда тесты всегда зелёные, возникает вопрос, а что они вообще проверяют?

Очевидно, что истинный вызов лежит не в улучшении существующих алгоритмов, а в понимании фундаментальных ограничений масштабируемости. Бесконечная масштабируемость, как известно, уже была в 2012-м, только называлась иначе. Вместо погони за новыми функциями, вероятно, стоит сосредоточиться на разработке более надёжных и интерпретируемых метрик оценки, а также на способах автоматического выявления и устранения «узких мест» в процессе обучения.

В конечном итоге, всё это лишь временные меры. Продакшен всегда найдёт способ сломать элегантную теорию. Поэтому, не стоит слишком увлекаться красивыми диаграммами. Важнее — готовиться к неизбежному и заранее закладывать ресурсы на рефакторинг.


Оригинал статьи: https://arxiv.org/pdf/2604.14258.pdf

Связаться с автором: https://www.linkedin.com/in/avetisyan/

Смотрите также:

2026-04-18 08:52