Обучение языковых моделей: новый подход к выбору информации

Автор: Денис Аветисян


Исследование предлагает стратегию обучения, фокусирующуюся на предсказании наиболее информативных токенов для повышения эффективности обработки языка.

"Покупай на слухах, продавай на новостях". А потом сиди с акциями никому не известной биотех-компании. Здесь мы про скучный, но рабочий фундаментал.

Бесплатный Телеграм канал
Эксперименты с различными порядками целевых токенов при обучении нейронных сетей – от NanoGPT (0.09M параметров) для сложения и GPT-2-mini (2.67M параметров) для умножения, до Qwen-2.5-1.5B-Instruct для классификации токсичных комментариев и GPT-2-small (137M параметров) для генерации текста на WikiText-2 – демонстрируют, что порядок подачи данных оказывает существенное влияние на скорость обучения (максимальная точность и её ранг среди всех перестановок) и, следовательно, на эффективность системы, указывая на возможность
Эксперименты с различными порядками целевых токенов при обучении нейронных сетей – от NanoGPT (0.09M параметров) для сложения и GPT-2-mini (2.67M параметров) для умножения, до Qwen-2.5-1.5B-Instruct для классификации токсичных комментариев и GPT-2-small (137M параметров) для генерации текста на WikiText-2 – демонстрируют, что порядок подачи данных оказывает существенное влияние на скорость обучения (максимальная точность и её ранг среди всех перестановок) и, следовательно, на эффективность системы, указывая на возможность «взлома» оптимизации за счет манипулирования структурой входных данных.

Данная работа рассматривает оптимизацию последовательности предсказания токенов в процессе обучения больших языковых моделей для максимизации взаимной информации.

Несмотря на значительные успехи в обучении больших языковых моделей (LLM), оптимизация процесса для достижения максимальной производительности при сохранении вычислительных затрат остается сложной задачей. В работе ‘Training LLMs Beyond Next Token Prediction — Filling the Mutual Information Gap’ предложена новая стратегия обучения, основанная на приоритете предсказания наиболее информативных токенов. Показано, что оптимизация последовательности предсказания токенов во время обучения позволяет повысить эффективность LLM в задачах арифметики, многоклассовой классификации текста и генерации естественного языка. Возможно ли дальнейшее повышение производительности LLM за счет более тонкой настройки стратегий выбора целевых токенов и адаптации к различным типам задач?


Основа: Предсказание Следующего Токена и Его Ограничения

Современные языковые модели, такие как GPT-2, семейства Llama и Qwen, основаны на предсказании следующего токена. Этот подход позволяет генерировать связный и грамматически правильный текст. Однако, подобный метод может приводить к проблеме смещения экспозиции: модель обучается на идеальных данных и испытывает трудности при обработке неполных или необычных входных данных. Это ограничивает способность модели адекватно реагировать на сложные ситуации, поскольку она не получает достаточного опыта работы с неидеальными данными. Каждый эксплойт начинается с вопроса.

Контекст как Ключ: Максимизация Взаимной Информации

Стратегия максимизации взаимной информации (MI) между исходными и целевыми токенами улучшает контекстное понимание в задачах обработки естественного языка. В отличие от стандартного предсказания следующего токена, максимизация MI позволяет модели более эффективно извлекать и использовать релевантную информацию. Приоритезация токенов с использованием Max(MI(SS;tt)), где SS – исходная последовательность, а tt – целевой токен, концентрирует внимание модели на наиболее информативных элементах, смягчая проблемы, связанные с потерей контекста или генерацией нерелевантных данных. Это позволяет модели точнее учитывать взаимосвязи между частями входной последовательности.

Применение и Валидация: За Гранью Беглости

Применение функции Max(MI(SS;tt)) демонстрирует повышение производительности в различных задачах, включая многоклассовую классификацию и сложные рассуждения, такие как арифметические вычисления. Зафиксировано увеличение точности до 28,5% при решении задач умножения двузначных чисел. Методы расширения данных, дополненные TF-IDF, повышают устойчивость модели, а переупорядочивание токенов уточняет контекстную обработку, смягчая проблему галлюцинаций и улучшая фактическую корректность генерируемого текста.

Исследование демонстрирует, что перестановка целевой последовательности успешно применяется в трех задачах: арифметических вычислениях, где переупорядочиваются цифры числового ответа, многоклассовой текстовой классификации, определяющей порядок предсказания меток, и генерации текста, где выбранный токен вставляется в начало каждого предложения. В арифметических задачах, таких как 35×07=0245, система переупорядочивает цифры числового ответа для достижения результата. В задаче многоклассовой текстовой классификации система определяет порядок предсказания меток, обеспечивая оптимальную последовательность. В процессе генерации текста система вставляет выбранный токен в начало каждого предложения, формируя связный и логичный текст.
Исследование демонстрирует, что перестановка целевой последовательности успешно применяется в трех задачах: арифметических вычислениях, где переупорядочиваются цифры числового ответа, многоклассовой текстовой классификации, определяющей порядок предсказания меток, и генерации текста, где выбранный токен вставляется в начало каждого предложения. В арифметических задачах, таких как 35×07=0245, система переупорядочивает цифры числового ответа для достижения результата. В задаче многоклассовой текстовой классификации система определяет порядок предсказания меток, обеспечивая оптимальную последовательность. В процессе генерации текста система вставляет выбранный токен в начало каждого предложения, формируя связный и логичный текст.

Измерение Успеха: Перплексия и За Её Пределами

Традиционные метрики, такие как Perplexity, ценны для оценки качества генерации текста, поскольку указывают на способность модели предсказывать следующий токен. Однако, целостная оценка требует рассмотрения производительности в различных задачах и снижения нежелательных проявлений, таких как галлюцинации. Данная стратегия достигает средней точности 94.96% в арифметических задачах и 78.64% по 9 задачам бенчмарка GLUE. Сочетание улучшенных метрик и производительности подтверждает эффективность максимизации взаимной информации и применения целевых методов аугментации данных: Max(MI(SS;tt)) превосходит Plain на 1.15% и Reverse на 2.04% в задачах многозначной классификации. Познание системы открывает двери к её переосмыслению, а не только к её воспроизведению.

Исследование демонстрирует, что оптимизация последовательности предсказания токенов, с акцентом на наиболее информативные, существенно улучшает производительность языковых моделей. Это напоминает о важности понимания внутренних механизмов систем, а не просто слепого следования шаблонам. Тим Бернерс-Ли однажды заметил: «Веб — это не просто набор страниц, связанных гиперссылками, а способ мышления». Подобно тому, как веб требует понимания связей между элементами, эффективное обучение языковых моделей требует осознанного выбора токенов для предсказания. Каждый ‘патч’ в алгоритме, каждая оптимизация последовательности – это философское признание несовершенства текущей модели и стремление к более глубокому пониманию принципов обработки информации. Оптимизация порядка токенов – это реверс-инжиниринг реальности, попытка взломать систему изнутри, чтобы понять, как она работает.

Что дальше?

Представленная работа, стремясь обойти ограничения предсказания следующего токена, открывает интересный вопрос: достаточно ли оптимизации последовательности для истинного понимания языка? Ведь, если система не может эффективно использовать информацию, даже правильно предсказанные токены остаются лишь фрагментами, лишенными связного смысла. Вполне вероятно, что простая перестановка приоритетов в обучении – это лишь первый шаг к созданию моделей, способных не просто имитировать, но и действительно понимать структуру информации.

Очевидным направлением для дальнейших исследований представляется разработка метрик, способных точно оценивать «информационную насыщенность» токена, не опираясь на косвенные показатели, такие как частота или сложность. Кроме того, стоит исследовать возможность динамической адаптации порядка предсказания токенов в процессе обучения, а не полагаться на заранее заданный приоритет. Иначе говоря, если система не может сама решить, что важно, значит ли это, что она вообще что-то понимает?

В конечном счете, истинный прогресс в области языкового моделирования, вероятно, потребует отхода от парадигмы «обучения предсказанию» и перехода к разработке систем, способных к активному извлечению и организации знаний. Правила существуют, чтобы их проверять, и, возможно, самое интересное еще впереди – взлом самой концепции «понимания» языка.


Оригинал статьи: https://arxiv.org/pdf/2511.00198.pdf

Связаться с автором: https://www.linkedin.com/in/avetisyan/

Смотрите также:

2025-11-04 22:43