Обучение языковых моделей: как избежать «сдвига вероятностей» и точнее соответствовать предпочтениям человека

Автор: Денис Аветисян


Новое исследование предлагает расширенный класс математических функций, позволяющих более эффективно и стабильно настраивать языковые модели в соответствии с человеческими оценками.

"Покупай на слухах, продавай на новостях". А потом сиди с акциями никому не известной биотех-компании. Здесь мы про скучный, но рабочий фундаментал.

Бесплатный Телеграм канал
Различные генераторы расхождений, используемые в алгоритме DPO - [latex]t\log⁡t[/latex], [latex]\chi\chi PO(\tfrac{1}{2}(t-1)^{2}+t\log t)[/latex] и [latex]SquaredPO(\tfrac{1}{2}(\log t)^{2})[/latex] - демонстрируют различную устойчивость к смещению правдоподобия, причём функция [latex]SquaredPO[/latex], имеющая глобальный минимум при [latex]t=1[/latex], оказывается наиболее устойчивой к подобным искажениям.
Различные генераторы расхождений, используемые в алгоритме DPO — t\log⁡t, \chi\chi PO(\tfrac{1}{2}(t-1)^{2}+t\log t) и SquaredPO(\tfrac{1}{2}(\log t)^{2}) — демонстрируют различную устойчивость к смещению правдоподобия, причём функция SquaredPO, имеющая глобальный минимум при t=1, оказывается наиболее устойчивой к подобным искажениям.

Теоретически обоснованы расширения алгоритма DPO с использованием невыпуклых $f$-дивергенций для повышения устойчивости к смещению вероятностей и улучшения процесса выравнивания.

Оптимизация языковых моделей с использованием обратной связи от человека часто сталкивается с проблемами устойчивости и смещения вероятностей. В статье ‘Displacement-Resistant Extensions of DPO with Nonconvex $f$-Divergences’ предложен теоретический анализ расширенного класса функций расхождения, позволяющих эффективно и предсказуемо согласовывать поведение моделей с предпочтениями человека. Авторы выявляют условия, обеспечивающие устойчивость алгоритма DPO при использовании невыпуклых $f$-расхождений и предотвращающие феномен «смещения вероятностей», когда вероятности предпочтительных и непредпочтительных ответов стремятся к нулю. Возможно ли дальнейшее расширение этого подхода для разработки еще более робастных и эффективных алгоритмов обучения с подкреплением на основе обратной связи от человека?


Проблема Неустойчивости: Когда Предпочтения Размываются

Обучение с подкреплением на основе обратной связи от человека (RLHF) играет ключевую роль в адаптации больших языковых моделей к предпочтениям пользователей, однако традиционные методы часто демонстрируют нестабильность в процессе обучения. Эта нестабильность проявляется в виде резких колебаний в производительности модели, что затрудняет достижение стабильных и предсказуемых результатов. Причина кроется в сложности оценки качества генерируемого текста и в чувствительности алгоритмов обучения к шуму в данных, полученных от людей. Неустойчивость может приводить к тому, что модель начинает генерировать текст, который формально соответствует предпочтениям, но при этом теряет связность, логичность или информативность. Для решения этой проблемы исследователи активно разрабатывают новые алгоритмы и стратегии обучения, направленные на повышение стабильности и надежности RLHF.

Модель Брэдли-Терри служит основой для моделирования предпочтений в обучении с подкреплением на основе обратной связи от человека (RLHF), позволяя ранжировать различные варианты ответов языковой модели в соответствии с человеческими суждениями. Однако, эффективное масштабирование этой модели для обработки огромных объемов данных, генерируемых крупными языковыми моделями, представляет собой значительную проблему. Традиционные методы, требующие попарного сравнения всех возможных ответов, становятся вычислительно непосильными. Ученые активно исследуют методы приближенного вычисления вероятностей предпочтений, такие как стохастические градиентные оценки и методы уменьшения размерности, чтобы сделать процесс обучения более эффективным и применимым к моделям с миллиардами параметров. Успешное решение этой задачи критически важно для создания языковых моделей, которые не только генерируют грамматически правильный текст, но и действительно соответствуют человеческим ценностям и ожиданиям.

Существующие подходы к обучению больших языковых моделей часто опираются на сложные модели вознаграждения, построенные на основе наборов данных предпочтений. Однако, этот метод несет в себе риски внесения систематических ошибок, отражающих предвзятости, присутствующие в исходных данных. Поскольку модели вознаграждения учатся на ограниченном наборе примеров, они могут испытывать трудности с обобщением на новые, не встречавшиеся ранее ситуации, что приводит к снижению производительности и непредсказуемому поведению модели в реальных условиях. Ограниченность и предвзятость наборов данных предпочтений, таким образом, становятся серьезным препятствием на пути к созданию действительно надежных и универсальных языковых моделей, способных соответствовать разнообразным человеческим предпочтениям.

Анализ логарифмических отношений вероятностей [latex] \log(\pi\_{\theta}(y\_{w}\mid x)/\pi\_{\text{ref}}(y\_{w}\mid x)) [/latex] показывает, что алгоритм SquaredPO обеспечивает значительно меньшее смещение правдоподобия по сравнению с DPO на всех этапах обучения, причем эта разница увеличивается со временем.
Анализ логарифмических отношений вероятностей \log(\pi\_{\theta}(y\_{w}\mid x)/\pi\_{\text{ref}}(y\_{w}\mid x)) показывает, что алгоритм SquaredPO обеспечивает значительно меньшее смещение правдоподобия по сравнению с DPO на всех этапах обучения, причем эта разница увеличивается со временем.

Прямая Оптимизация Предпочтений: Упрощение Сложного

Прямая оптимизация предпочтений (DPO) представляет собой альтернативный подход к традиционному обучению с подкреплением на основе обратной связи от человека (RLHF), позволяющий напрямую оптимизировать политику модели на основе данных о предпочтениях. В отличие от RLHF, требующего обучения модели вознаграждения для оценки качества ответов, DPO использует данные о парных сравнениях — информацию о том, какой из двух ответов предпочтителен для пользователя. Этот подход позволяет избежать сложностей, связанных с обучением и калибровкой модели вознаграждения, и упрощает процесс обучения, делая его более стабильным и эффективным. Вместо максимизации ожидаемого вознаграждения, DPO напрямую максимизирует вероятность того, что модель будет генерировать ответы, которые предпочитаются человеком, что позволяет избежать проблем с неточностью или смещением, возникающими при использовании неидеальной модели вознаграждения.

Оптимизация прямой предпочтительности (DPO) использует решение в замкнутой форме, что позволяет осуществлять эффективное и стабильное обучение без необходимости в явном моделировании вознаграждения. Традиционные методы обучения с подкреплением на основе обратной связи от человека (RLHF) требуют отдельного обучения модели вознаграждения, которое затем используется для оптимизации политики. DPO обходит этот этап, напрямую оптимизируя политику на основе данных о предпочтениях, что снижает вычислительную сложность и потенциальную нестабильность, связанную с обучением и калибровкой модели вознаграждения. Использование замкнутой формы обеспечивает аналитическую разрешимость и позволяет более точно контролировать процесс обучения, избегая проблем, характерных для итеративных методов оптимизации.

Ключевым компонентом Direct Preference Optimization (DPO) является DPO-индуцирующая функция, обеспечивающая вычислительную эффективность при оптимизации с учетом предпочтений человека. Данная работа характеризует более широкий класс этих функций, выходящий за рамки ранее исследованных выпуклых вариантов. Это расширение позволяет DPO использовать более гибкие модели предпочтений и потенциально достигать лучших результатов, сохраняя при этом гарантии вычислительной эффективности. В частности, исследование показывает, что невыпуклые DPO-индуцирующие функции могут эффективно использоваться для обучения политик, отражающих сложные паттерны предпочтений, при этом оставаясь аналитически трактуемыми, что важно для стабильности обучения и возможности проведения теоретического анализа. \mathcal{D}(y, \pi) = \mathbb{E}_{x \sim \mathcal{D}} [\log \sigma(\pi(a|x) - \pi(b|x))] представляет собой типичную формулу, где σ — сигмоидная функция, а a и b — альтернативные действия.

Анализ логарифмических соотношений вероятностей выбранных ответов показывает, что метод SquaredPO обеспечивает меньшее смещение правдоподобия и менее резкое снижение вероятностей по сравнению с DPO, что подтверждается эволюцией среднего и медианного значений этих соотношений в процессе обучения.
Анализ логарифмических соотношений вероятностей выбранных ответов показывает, что метод SquaredPO обеспечивает меньшее смещение правдоподобия и менее резкое снижение вероятностей по сравнению с DPO, что подтверждается эволюцией среднего и медианного значений этих соотношений в процессе обучения.

Борьба со Смещением Вероятностей: Когда Отсутствие Определенности Дестабилизирует

Смещение вероятностей (Probability Displacement), заключающееся в стремлении вероятностей победы и поражения к нулю в процессе оптимизации, является фактором дестабилизации алгоритма DPO (Direct Preference Optimization). Когда вероятности P(y|x) и P(\neg y|x) обе приближаются к нулю, градиенты становятся неопределенными, что приводит к нестабильному обучению и потенциальному расхождению алгоритма. Данное явление особенно критично на поздних стадиях обучения, когда модель стремится к высокой точности и тонкой настройке предпочтений, и может существенно снизить эффективность DPO.

Функция потерь SquaredPO, разработанная на основе невыпуклого FF-расхождения, эффективно снижает эффект смещения вероятностей (Probability Displacement) при оптимизации. Традиционные методы, такие как DPO, могут страдать от ситуации, когда вероятности как для предпочтительного, так и для непредпочтительного ответа стремятся к нулю, что дестабилизирует процесс обучения. SquaredPO решает эту проблему, используя FF-расхождение, которое позволяет более устойчиво оценивать разницу между распределениями вероятностей и предотвращает их коллапс к нулю. Экспериментальные данные демонстрируют, что SquaredPO значительно снижает вероятность возникновения смещения вероятностей по сравнению со стандартным DPO, обеспечивая более стабильное и предсказуемое обучение.

Функция устойчивости к смещению (Displacement-Resistant Function), используемая в SquaredPO, обеспечивает сохранение определенных вероятностей на протяжении всего процесса обучения. В отличие от стандартного DPO, где вероятности выигрыша и проигрыша могут стремиться к нулю, вызывая дестабилизацию, SquaredPO поддерживает вероятности на достаточном уровне. Экспериментальные результаты демонстрируют, что SquaredPO эффективно снижает эффект смещения вероятностей (likelihood displacement) по сравнению со стандартным DPO, что повышает общую стабильность и надежность оптимизации.

В процессе обучения на наборе данных TL;DR, использование SquaredPO позволяет избежать феномена монотонности, наблюдаемого при использовании DPO, что проявляется в изменении логарифмических отношений [latex] \log(\pi\_{\theta}(y\_{w}\mid x)/\pi\_{\text{ref}}(y\_{w}\mid x)) [/latex] для случайной выборки из 10 образцов.
В процессе обучения на наборе данных TL;DR, использование SquaredPO позволяет избежать феномена монотонности, наблюдаемого при использовании DPO, что проявляется в изменении логарифмических отношений \log(\pi\_{\theta}(y\_{w}\mid x)/\pi\_{\text{ref}}(y\_{w}\mid x)) для случайной выборки из 10 образцов.

Логарифмическое Отношение: Точное Измерение Предпочтений

Метод SquaredPO эффективно использует логарифмическое отношение Log-Ratio для точной оценки разницы между предпочтительными и непредпочтительными ответами. В отличие от традиционных подходов, полагающихся на абсолютные вероятности, данный метод фокусируется на относительной вероятности выбора одного ответа над другим, что позволяет более надежно измерять степень предпочтения. Это достигается путем вычисления логарифма отношения вероятностей предпочтительного и непредпочтительного вариантов, что особенно полезно в ситуациях, когда разница между вероятностями невелика или когда необходимо учесть нелинейные зависимости. Использование Log-Ratio позволяет избежать проблем, связанных с искажением вероятностей и улучшает сходимость алгоритмов оптимизации, что делает SquaredPO более стабильным и эффективным инструментом для задач, связанных с анализом предпочтений.

Метод SquaredPO, используя надежную меру предпочтений, эффективно обходит проблему смещения вероятностей, часто возникающую при оптимизации моделей. Данное смещение может приводить к неточностям в оценке и, как следствие, к замедлению или даже остановке процесса обучения. В отличие от стандартных подходов, SquaredPO обеспечивает более устойчивое схождение алгоритма к оптимальному решению, позволяя модели более точно отражать истинные предпочтения. Это достигается за счет того, что предложенная метрика предпочтений менее чувствительна к незначительным изменениям в вероятностях, что позволяет избежать ложных сигналов и ускорить процесс обучения. Таким образом, SquaredPO не только повышает точность моделей, но и значительно улучшает эффективность их оптимизации.

Представленный подход демонстрирует значительный прогресс в оптимизации предпочтений, обеспечивая повышенную стабильность и производительность по сравнению со стандартным DPO. Исследование предоставляет полное описание функций, индуцирующих DPO, показывая, что для достижимой оптимизации необязательны выпуклые функции. Было выявлено семейство функций, эффективно противодействующих смещению вероятностей - что позволяет более точно и надежно определять истинные предпочтения. Этот результат расширяет теоретические границы DPO и открывает новые возможности для разработки более устойчивых и эффективных алгоритмов обучения с подкреплением на основе предпочтений.

В ходе обучения Meta-Llama-3-8B-Instruct на наборе данных TL;DR в течение 44 эпох, метод SquaredPO демонстрирует более высокую частоту побед над DPO, что подтверждается результатами по 1010 случайным начальным условиям.
В ходе обучения Meta-Llama-3-8B-Instruct на наборе данных TL;DR в течение 44 эпох, метод SquaredPO демонстрирует более высокую частоту побед над DPO, что подтверждается результатами по 1010 случайным начальным условиям.

Исследование демонстрирует, что стремление к совершенству в выравнивании языковых моделей с предпочтениями человека часто приводит к нежелательным последствиям. Авторы предлагают более широкий класс расхождений, позволяющий смягчить проблему смещения вероятностей, что является важным шагом к созданию более устойчивых систем. Этот подход напоминает о том, что идеальная архитектура — всего лишь миф, необходимый для сохранения рассудка. Как однажды заметил Линус Торвальдс: «Плохой код похож на раковую опухоль: он растет, а затем убивает пациента». Подобно тому, как неконтролируемый рост кода может привести к катастрофе, чрезмерная оптимизация в выравнивании моделей может лишить их гибкости и адаптивности, что подтверждает мысль о том, что системы — это не инструменты, а экосистемы, которые можно только взращивать, а не строить.

Что дальше?

Представленные теоретические построения, касающиеся расходимостей и выравнивания языковых моделей, напоминают попытку обуздать хаос при помощи всё более изящных инструментов. Однако, каждая новая архитектура обещает свободу от проблемы «смещения вероятностей», пока не потребует DevOps-жертвоприношений. Нельзя забывать, что порядок — это просто временный кэш между сбоями. Расширение класса допустимых расходимостей — шаг вперёд, но он лишь отодвигает неизбежный момент столкновения с непредсказуемостью человеческих предпочтений.

Настоящая проблема заключается не в поиске оптимальной меры расходимости, а в признании фундаментальной неопределенности задачи выравнивания. Системы — это не инструменты, а экосистемы. Их нельзя построить, только вырастить. Следующий этап, вероятно, потребует смещения фокуса с математической строгости на адаптивные методы, способные самообучаться на ошибках и непредсказуемых паттернах взаимодействия с пользователем.

Вместо того чтобы стремиться к «идеальной» метрике, стоит обратить внимание на инструменты, позволяющие диагностировать и смягчать последствия нежелательных эффектов после их появления. Предложенные решения — лишь фрагмент мозаики. Будущее за системами, способными не только учиться, но и признавать собственные ограничения, и, возможно, даже уметь извлекать пользу из неизбежного хаоса.


Оригинал статьи: https://arxiv.org/pdf/2602.06788.pdf

Связаться с автором: https://www.linkedin.com/in/avetisyan/

Смотрите также:

2026-02-10 07:36