Улучшение ответов больших языковых моделей: новый подход к сегментной настройке

Автор: Денис Аветисян

Исследователи предлагают эффективный алгоритм для повышения согласованности и качества генерируемых текстов без дорогостоящей переподготовки модели.

"Покупай на слухах, продавай на новостях". А потом сиди с акциями никому не известной биотех-компании. Здесь мы про скучный, но рабочий фундаментал.

Бесплатный Телеграм канал

Для обеспечения соответствия и безопасности, методология STARS итеративно оценивает и отбраковывает промежуточные варианты ответа, направляя модель к полезному результату путем раннего исключения нежелательных траекторий, таких как вредные предложения или общие отказы.

В статье представлен STARS – метод сегментной настройки с использованием режекционного семплирования, демонстрирующий улучшенные показатели в задачах генерации полезных, безопасных и позитивных ответов.

Согласование больших языковых моделей с человеческими ценностями является критически важной задачей, однако существующие подходы, такие как тонкая настройка, требуют значительных вычислительных ресурсов. В данной работе, ‘STARS: Segment-level Token Alignment with Rejection Sampling in Large Language Models’, предложен алгоритм STARS, реализующий сегментное отбраковочное семплирование во время декодирования для повышения согласованности и эффективности генерации текста. Эксперименты на шести LLM показали, что STARS превосходит методы тонкой настройки и оптимизации предпочтений, демонстрируя улучшение показателей на 4,3-14,9 процентных пункта. Может ли предложенный подход к гранулярному семплированию с учетом вознаграждения стать универсальным и эффективным решением для согласования больших языковых моделей?

За гранью генерации: потребность в сегментном выравнивании

Традиционные большие языковые модели (LLM) демонстрируют высокую эффективность в генерации связного текста, однако часто испытывают трудности с соответствием человеческим предпочтениям и требованиям безопасности. LLM склонны генерировать предвзятые, оскорбительные или вводящие в заблуждение ответы, что ограничивает их применение в критически важных областях. Современные методы тонкой настройки, такие как обучение с учителем (SFT) и оптимизация прямых предпочтений (DPO), оперируют полными ответами, затрудняя точную настройку поведения модели. Необходим более гранулярный подход, оперирующий на уровне отдельных текстовых сегментов, для точной корректировки и соответствия желаемым характеристикам.

STARS: сегментное декодирование для точного выравнивания

Алгоритм STARS – это метод декодирования, функционирующий посредством итеративной выборки, оценки и принятия или отклонения коротких сегментов токенов («Token Blocks»). Это позволяет последовательно строить выходную последовательность, оценивая каждый блок на соответствие желаемым критериям. В основе работы STARS лежит метод принятия-отклонения (Rejection Sampling), использующий Модель Наград Процесса (PRM) для определения соответствия сегмента задаче. STARS обеспечивает более точное выравнивание благодаря принятию решений на уровне сегментов, учитывая контекст и взаимосвязи между ними, что повышает качество генерируемого текста.

Формирование желаемого поведения: роль функции вознаграждения и целевого распределения

Эффективность STARS напрямую зависит от тщательно разработанной функции вознаграждения, количественно оценивающей желаемые характеристики ответа (полезность, безвредность, позитивный настрой). Цель STARS – сходимость к ‘Target Gibbs Distribution’ – идеальному распределению вероятностей ответов, определяемому сигналом вознаграждения. Результаты экспериментов демонстрируют значительное улучшение производительности даже для небольших моделей. Модель с 7 миллиардами параметров, обученная с использованием STARS, достигает уровня побед более 60% в сравнении с моделью в 405 миллиардов параметров (72.48% на HH-RLHF, 75.92% на HarmfulQA, 70.55% на IMDB).

За пределами выравнивания: устойчивость и перспективы

Метод STARS демонстрирует повышенную устойчивость к состязательным атакам по сравнению с традиционными методами, такими как Best-of-N Sampling. Это достигается за счёт тщательного анализа и фильтрации генерируемых токенов. Сегментный подход позволяет проводить более целенаправленные вмешательства для решения конкретных проблем безопасности. STARS последовательно превосходит методы SFT и DPO, улучшая показатели выигрыша (9.25% у Llama-8B, 8.66% у Mistral-7B, 14.00% у Pythia-6.9B, 14.91% у Qwen-7B, 3.34% над DPO с Llama-8B-SFT, 4.34% с Mistral-7B-SFT). Дальнейшие исследования будут направлены на масштабирование STARS и изучение его потенциала для приложений за пределами генерации текста. Каждая «революционная» технология завтра станет техдолгом, и этот метод, несомненно, потребует собственных исправлений и оптимизаций.

Исследование предлагает алгоритм STARS, стремящийся к выравниванию больших языковых моделей на этапе инференса. Это напоминает вечную борьбу между теорией и практикой. Как будто создатели пытаются обуздать хаос, возникающий при взаимодействии модели с реальным миром. Давид Гильберт однажды сказал: «В математике нет ничего окончательного, только доказанные и опровергнутые утверждения». Аналогично, в машинном обучении, любое выравнивание – это лишь временное состояние, подверженное влиянию новых данных и непредсказуемости продакшена. Алгоритм STARS, стремясь к эффективному сегментному отбору, пытается продлить жизнь этой «красивой смерти» абстракции, отсрочив момент неизбежного краха перед лицом реальных запросов пользователей.

Что дальше?

Предложенный алгоритм STARS, безусловно, представляет собой элегантный способ обхода необходимости в постоянной перенастройке моделей. Однако, следует помнить, что каждая оптимизация на этапе инференса – это лишь отсрочка неизбежного. Производство всегда найдёт способ нагрузить систему до точки, где даже rejection sampling станет неэффективным. Вопрос не в том, насколько хорошо алгоритм работает сейчас, а в том, когда его эффективность начнёт деградировать под давлением реальных запросов.

Особое внимание заслуживает проблема масштабируемости. Алгоритм демонстрирует улучшения, но насколько эти улучшения сохранятся при увеличении размера модели и сложности задач? Легко увлечься оптимизацией на небольших примерах, забывая о том, что legacy – это не просто воспоминание о лучших временах, а напоминание о том, что оптимизации часто имеют скрытые издержки. Необходимо исследовать, как STARS взаимодействует с другими методами alignment, и возможно ли его комбинировать для достижения ещё большей эффективности.

В конечном счете, настоящая проблема заключается не в улучшении alignment, а в понимании того, что “полезный”, “безопасный” и “позитивный” – это субъективные категории, которые постоянно меняются. Попытки их формализации неизбежно приведут к новым способам обхода ограничений. Так что, возможно, мы не чиним продакшен — мы просто продлеваем его страдания.

Оригинал статьи: https://arxiv.org/pdf/2511.03827.pdf

Связаться с автором: https://www.linkedin.com/in/avetisyan/

Смотрите также:

2025-11-08 11:35