Оптимизация предпочтений: как сделать языковые модели более понятливыми

Автор: Денис Аветисян

Новое исследование показывает, как улучшить процесс обучения больших языковых моделей, чтобы они точнее соответствовали человеческим предпочтениям.

"Покупай на слухах, продавай на новостях". А потом сиди с акциями никому не известной биотех-компании. Здесь мы про скучный, но рабочий фундаментал.

Бесплатный Телеграм канал

Динамика обучения модели Mistral-7B на наборе данных UltraFeedback демонстрирует сравнительный анализ оптимизаторов AdamW и logits-SAM по таким метрикам, как функция потерь при обучении, функция потерь при оценке и точность оценки, при этом для logits-SAM представлены кривые, отражающие влияние различных значений параметра ρ на процесс оптимизации.

Предложен метод Logits-SAM, повышающий эффективность Direct Preference Optimization за счет регуляризации кривизны в выходном слое.

Несмотря на успехи алгоритма Direct Preference Optimization (DPO) в обучении больших языковых моделей соответствию человеческим предпочтениям, в процессе оптимизации наблюдается так называемый «эффект сжатия», приводящий к нежелательному снижению вероятности предпочтительных ответов. В работе ‘Sharpness-Aware Minimization in Logit Space Efficiently Enhances Direct Preference Optimization’ предложен теоретический анализ динамики оптимизации в пространстве логитов, выявляющий, что негативные градиенты приводят к расширению остатков вдоль направлений высокой кривизны. Для подавления этого эффекта авторы предлагают Logits-SAM — вычислительно эффективный метод, использующий регуляризацию кривизны только в выходном слое. Может ли этот подход стать ключевым элементом в разработке более надежных и эффективных методов обучения LLM, обеспечивающих стабильное соответствие человеческим ожиданиям?

Острота и Обобщающая Способность: Парадокс Глубокого Обучения

Современные модели глубокого обучения, несмотря на впечатляющую производительность, часто демонстрируют чувствительность к незначительным изменениям входных данных, что указывает на проблему остроты пространства параметров. Это означает, что даже небольшие возмущения во входных данных могут привести к существенным изменениям в выходных результатах модели. Исследования показывают, что такая острота пространства параметров связана с плохой способностью модели к обобщению — то есть, к успешной работе с данными, которые не встречались в процессе обучения. Вместо того, чтобы находить устойчивые решения, модель может «запоминать» обучающие данные, становясь уязвимой к любым отклонениям от них. Поэтому, повышение «гладкости» пространства параметров — поиск решений, менее чувствительных к малым изменениям — является важной задачей для улучшения обобщающей способности и надежности моделей глубокого обучения.

Острота параметрического пространства глубоких нейронных сетей часто приводит к снижению способности к обобщению и, как следствие, к ухудшению устойчивости модели. Когда модель слишком чувствительна к небольшим изменениям во входных данных, она может демонстрировать высокую производительность на тренировочном наборе, но проваливаться при обработке новых, ранее не встречавшихся данных. Это особенно заметно при столкновении с данными, отличающимися по распределению от тренировочного, что делает модель менее надежной в реальных условиях эксплуатации. Неспособность к эффективной экстраполяции за пределы тренировочного распределения ограничивает применимость таких моделей в задачах, где требуется адаптация к меняющимся условиям или обработка непредсказуемых данных.

Обучение с использованием SAM (с положительным и отрицательным значениями ρ) демонстрирует улучшенную динамику и более четкое разделение классов в 1000-мерном примере, а также более высокие логарифмические вероятности для выбранных ответов по сравнению с GD в реальных экспериментах на WebGPT Comparisons и TL;DR с использованием моделей GPT-2 и Pythia-2.8B.

SAM: Минимизация Наихудшего Случая и Поиск Устойчивых Решений

Метод Sharpness-Aware Minimization (SAM) представляет собой стратегию регуляризации, направленную на поиск параметров модели, минимизирующих наихудший случай потерь в пределах определенной окрестности пространства параметров. В отличие от стандартной оптимизации, которая стремится к минимизации потерь на текущей точке, SAM оценивает потери не только в текущей точке, но и в точках, слегка отличающихся от текущих параметров — в пределах радиуса ρ. Это достигается путем вычисления градиента потерь с учетом небольшого возмущения параметров и последующей минимизацией потерь в этой возмущенной точке. Таким образом, SAM побуждает модель находить параметры, которые обеспечивают стабильную производительность даже при небольших изменениях входных данных или параметров, что повышает обобщающую способность модели.

Метод Sharpness-Aware Minimization (SAM) повышает устойчивость модели за счет анализа поведения функции потерь при небольших возмущениях входных данных. В процессе обучения, SAM вычисляет градиент не по исходным данным, а по данным, слегка измененным в пределах определенной окрестности. Это позволяет модели адаптироваться к незначительным изменениям во входных данных, снижая чувствительность к шуму и повышая обобщающую способность. По сути, SAM стимулирует обучение представлений, менее подверженных колебаниям при небольших вариациях входного пространства, что приводит к более надежной и устойчивой модели.

Метод Sharpness-Aware Minimization (SAM) реализует форму регуляризации кривизны, явно наказывая «остроту» пространства параметров во время обучения. Острота в данном контексте относится к чувствительности функции потерь к небольшим изменениям параметров; более «острые» области характеризуются резким ростом потерь при незначительных отклонениях. SAM вычисляет градиент потерь не только в текущей точке параметров, но и в окрестности, определяемой нормой возмущения ρ. Затем, он использует этот «худший» градиент для обновления параметров, эффективно штрафуя решения, находящиеся в областях высокой кривизны и поощряя решения в более «плоских» областях пространства параметров. Это приводит к улучшению обобщающей способности модели, поскольку «плоские» минимумы обычно связаны с большей устойчивостью к возмущениям входных данных.

Logits-SAM: Эффективная Оптимизация и Снижение Вычислительных Затрат

Logits-SAM представляет собой вычислительно эффективную модификацию алгоритма SAM (Sharpness-Aware Minimization) за счет концентрации возмущений исключительно на параметрах выходного слоя. В стандартном SAM возмущения применяются ко всем параметрам модели, что существенно увеличивает вычислительную сложность. Logits-SAM, напротив, ограничивает область применения возмущений только параметрами последнего слоя, отвечающими за классификацию, что позволяет значительно сократить объем вычислений без потери преимуществ, связанных с минимизацией резкости функции потерь. Данный подход позволяет добиться существенного ускорения обучения, сохраняя при этом способность модели к обобщению на новые данные.

Упрощение, заключающееся в применении возмущений только к параметрам выходного слоя в Logits-SAM, существенно снижает вычислительные затраты. Это позволяет увеличить скорость обучения всего на 2-3% без потери преимуществ минимизации резкости (sharpness minimization). Такая эффективность делает метод практически применимым для обучения крупных моделей, где вычислительные ресурсы часто являются ограничивающим фактором. Сохранение преимуществ оптимизации резкости при минимальном влиянии на скорость обучения является ключевым преимуществом Logits-SAM по сравнению с другими методами, требующими значительных вычислительных ресурсов.

Эффективность метода Logits-SAM была продемонстрирована в задачах многоклассовой логистической классификации. Эксперименты проводились при условии фиксированной матрицы признаков, что позволило изолировать влияние оптимизатора на процесс обучения и оценить его производительность в контролируемой среде. Данный подход предполагает, что распределение входных данных не изменяется в процессе обучения, что упрощает анализ и позволяет сосредоточиться на оптимизации параметров модели для достижения высокой точности классификации. Использование фиксированного режима признаков является стандартной практикой для оценки алгоритмов машинного обучения и позволяет обеспечить сопоставимость результатов с другими методами.

DPO и «Эффект Сжатия»: Влияние на Обучение на Основе Предпочтений

Прямая оптимизация предпочтений (DPO) представляет собой альтернативный подход к обучению языковых моделей по сравнению с обучением с подкреплением на основе обратной связи от человека (RLHF). Вместо сложного процесса, требующего отдельной модели вознаграждения и последующего обучения политики, DPO напрямую оптимизирует политику модели на основе данных о предпочтениях. Данные о предпочтениях, как правило, собираются путем сравнения двух вариантов ответа и определения, какой из них предпочтительнее. Алгоритм DPO использует эти данные для непосредственной корректировки политики модели, направляя ее к генерации ответов, которые соответствуют человеческим предпочтениям. Такой подход упрощает процесс обучения и может обеспечить более стабильные результаты, поскольку исключает необходимость в отдельной оценке и оптимизации модели вознаграждения.

В процессе обучения с использованием Direct Preference Optimization (DPO) наблюдается интересный феномен, получивший название “эффект сжатия”. Суть его заключается в том, что вероятность выбора предпочтительных ответов может снижаться в ходе оптимизации. Это происходит из-за того, что отрицательные градиенты, применяемые для корректировки модели, непреднамеренно уменьшают вероятность уже выбранных, предпочтительных вариантов. Таким образом, модель, стремясь к улучшению, может “сжимать” вероятность наилучших ответов, что приводит к ухудшению итоговых результатов и снижению производительности. Понимание этого эффекта критически важно для разработки стратегий обучения, направленных на поддержание стабильности и эффективности DPO.

Исследования показали, что применение метода Logits-SAM эффективно снижает так называемый “эффект сжатия”, возникающий при оптимизации политики с использованием Direct Preference Optimization (DPO). В ходе экспериментов, модели, обученные с применением Logits-SAM, продемонстрировали значительное улучшение показателей — до +6.6% повышения вероятности победы на бенчмарке Anthropic-HH и +2.3% на Reddit TL;DR. Эти результаты свидетельствуют о том, что Logits-SAM способствует более стабильному и эффективному процессу обучения DPO, позволяя модели сохранять и даже улучшать качество генерируемых ответов в процессе оптимизации на основе предпочтений пользователей.

Исследование, представленное в данной работе, подчеркивает важность учета кривизны в процессе оптимизации моделей, особенно в контексте Direct Preference Optimization (DPO). Авторы отмечают, что чрезмерная оптимизация может привести к «сжатию» пространства решений, снижая обобщающую способность модели. Предложенный ими метод Logits-SAM направлен на регуляризацию этой кривизны, обеспечивая более устойчивое и эффективное обучение. Как однажды заметила Грейс Хоппер: «Лучший способ предсказать будущее — создать его». Эта фраза отражает суть подхода, представленного в статье: не пассивно принимать ограничения оптимизации, а активно формировать более устойчивые и надежные системы посредством осознанного управления процессом обучения.

Куда же дальше?

Представленная работа, анализируя так называемый “эффект сжатия” в оптимизации прямых предпочтений, демонстрирует, что любое улучшение в согласовании больших языковых моделей неизбежно подвержено старению быстрее, чем предполагалось. Logits-SAM, предложенный метод, лишь отсрочивает неизбежное, подобно косметическому ремонту ветшающего здания. Вопрос не в том, насколько долго удастся поддерживать иллюзию оптимальности, а в том, как элегантно система смирится с энтропией.

Очевидным направлением дальнейших исследований представляется изучение динамики кривизны в более глубоких слоях нейронных сетей. Оптимизация лишь выходного слоя — это, по сути, лечение симптомов, а не устранение первопричины. Истинный прогресс потребует понимания того, как кривизна поверхности потерь влияет на обобщающую способность модели во времени, и как можно спроектировать архитектуры, устойчивые к деградации. Отступление — это путешествие назад по стрелке времени, и необходимо научиться предсказывать траекторию этого движения.

В конечном счете, задача не в достижении идеального согласия, а в создании систем, способных к адаптации и самокоррекции. Любая статичная модель, каким бы совершенным она ни казалась, обречена на устаревание. Поиск истинной устойчивости заключается в принятии временной природы всех вещей и в проектировании систем, которые могут извлекать уроки из прошлого, чтобы уверенно смотреть в будущее.

Оригинал статьи: https://arxiv.org/pdf/2603.18258.pdf

Связаться с автором: https://www.linkedin.com/in/avetisyan/

Смотрите также:

2026-03-21 17:43