Начальная точка решает: оптимизация сжатия больших языковых моделей

Автор: Денис Аветисян

Новый подход к экстремальной квантизации больших языковых моделей показывает, что начальная инициализация кодовых книг критически важна для достижения оптимальной производительности.

"Покупай на слухах, продавай на новостях". А потом сиди с акциями никому не известной биотех-компании. Здесь мы про скучный, но рабочий фундаментал.

Бесплатный Телеграм канал

Исследование представляет метод OA-EM для улучшения инициализации кодовых книг и повышения эффективности сжатия, основанного на аддитивной квантизации и контроле репрезентативного соотношения.

Несмотря на перспективность аддитивной квантизации для экстремального сжатия больших языковых моделей (LLM) с целью развертывания на периферийных устройствах, достижение приемлемого качества при 2-битной точности часто оказывается проблематичным. В работе ‘Initialisation Determines the Basin: Efficient Codebook Optimisation for Extreme LLM Quantization’ показано, что ключевым ограничивающим фактором является начальная инициализация кодовых книг, поскольку жадные последовательные методы часто помещают модель в неоптимальные области поиска. Предложенный метод OA-EM, использующий взвешенное махаланобисово расстояние, позволяет улучшить начальную инициализацию и достичь лучших результатов после PV-тонкой настройки, демонстрируя превосходство на различных архитектурах и уровнях сжатия. Может ли понимание влияния начальной инициализации на оптимизационную геометрию сжатых моделей открыть новые пути к более эффективным алгоритмам квантизации и сжатия LLM?

Инициализационный Тупик: Фундаментальное Ограничение

Квантизация больших языковых моделей (LLM) является необходимым шагом для их практического применения и развертывания на различных устройствах, однако упрощенные подходы к квантизации зачастую приводят к существенному снижению производительности. Это связано с тем, что уменьшение точности представления весов модели, без учета особенностей ее архитектуры и данных, ведет к потере информации и, как следствие, к ухудшению качества генерируемого текста или точности выполнения задач. Несмотря на значительный прогресс в области сжатия моделей, наивные методы квантизации, не учитывающие влияние сжатия на репрезентационную способность весов, часто становятся узким местом, ограничивающим возможность эффективного развертывания LLM в реальных условиях. Проблема особенно актуальна для моделей с высокой степенью сжатия, где потери точности могут быть критическими для сохранения полезности модели.

Снижение точности больших языковых моделей (LLM) при квантовании, особенно при высоких степенях сжатия, часто обусловлено неоптимальной инициализацией кодовых книг, используемых для представления весов. Этот процесс, названный “узким местом инициализации”, возникает из-за того, что случайное распределение весов в кодовых книгах не позволяет эффективно захватывать сложность исходных параметров модели. В результате, даже незначительные отклонения в весах могут приводить к существенным потерям информации и снижению производительности. Исследования показывают, что проблема усугубляется при сильном сжатии, когда количество доступных кодовых слов ограничено, и модели вынуждены представлять более сложные данные с меньшим количеством ресурсов. Это создает серьезное препятствие для развертывания LLM на устройствах с ограниченными вычислительными возможностями, подчеркивая необходимость разработки более эффективных методов инициализации кодовых книг.

Исследования показали, что способность весовых групп к представлению информации, измеряемая через коэффициент репрезентативности ρ, оказывает прямое влияние на выраженность так называемого “узкого места инициализации” при квантовании больших языковых моделей. Установлено, что при высокой степени сжатия, а именно при 2 битах на параметр (2bpp), критическим значением коэффициента ρ является 18. Превышение этого порога приводит к значительному ухудшению производительности модели, поскольку способность весовых групп адекватно кодировать необходимую информацию оказывается недостаточной. Таким образом, поддержание достаточной репрезентативной способности весовых групп является ключевым фактором для успешного квантования и развертывания больших языковых моделей, позволяя избежать существенной потери точности и эффективности.

AQLM: Аддитивная Квантизация для Улучшенных LLM

Аддитивная квантизация (AQLM) представляет собой подход к снижению вычислительной сложности больших языковых моделей (LLM) путем представления весов модели в виде суммы кодовых слов из нескольких кодовых книг. Вместо традиционной квантизации, где каждый вес аппроксимируется одним кодовым словом, AQLM позволяет использовать несколько кодовых слов для более точной реконструкции исходного значения. Это достигается путем обучения набора кодовых книг и последующего представления каждого веса как линейной комбинации кодовых слов из этих книг. Формально, вес $w$ представляется как $w = \sum_{i=1}^{k} a_i c_i$ , где $c_i$ — кодовые слова из разных кодовых книг, а $a_i$ — соответствующие коэффициенты. Такой подход позволяет добиться более высокой точности при значительном снижении требований к памяти и вычислительным ресурсам по сравнению с полноразмерными моделями.

Аддитивная квантизация (AQLM) использует свободно формируемые кодовые книги, перенося методы, разработанные в области информационного поиска, в домен больших языковых моделей (LLM). В отличие от традиционных методов квантизации, где кодовые книги обычно ограничены определенными структурами или ограничениями, AQLM позволяет создавать кодовые книги, оптимизированные непосредственно для весов LLM без предварительных ограничений на их содержимое. Это достигается путем применения алгоритмов, изначально разработанных для поиска ближайших соседей и кластеризации в больших наборах данных, для определения оптимальных кодовых слов, представляющих веса модели. Использование свободно формируемых кодовых книг позволяет AQLM более эффективно захватывать сложное распределение весов LLM, что потенциально приводит к повышению точности и снижению вычислительных затрат по сравнению с другими методами квантизации.

Первоначальное построение кодовых книг в методе аддитивной квантизации (AQLM) представляет собой существенную проблему, поскольку простые последовательные методы подгонки оказываются недостаточными для достижения оптимальной производительности. Эффективность AQLM напрямую зависит от качества и репрезентативности этих кодовых книг, и существующие подходы, основанные на последовательной оптимизации, часто приводят к субоптимальным результатам, особенно при работе с большими языковыми моделями. Необходимы усовершенствованные методы инициализации, учитывающие структуру весов и обеспечивающие более эффективное представление информации, что является ключевым направлением для дальнейших исследований и повышения эффективности AQLM.

OA-EM: Уточнение Кодовых Книг с Учетом Чувствительности Выхода

Алгоритм OA-EM (Output-Aware Expectation-Maximization) представляет собой расширение традиционных методов инициализации кодовых книг, вводя в процесс учёт чувствительности выходных данных. В отличие от стандартных подходов, которые рассматривают только входные данные при определении оптимального расположения элементов в кодовой книге, OA-EM учитывает, как изменение входных данных влияет на выходные данные модели. Это достигается путём анализа производных функции потерь по отношению к входным данным, что позволяет более точно адаптировать кодовую книгу к специфике решаемой задачи и повысить эффективность модели. Учёт чувствительности позволяет более эффективно моделировать распределение данных и улучшить качество представления информации в кодовой книге.

Алгоритм OA-EM оптимизирует позиции элементов кодовой книги, используя взвешенное Гессианом Махаланобисово расстояние. В отличие от метода Greedy Sequential Fitting, который последовательно приближает векторы к данным, OA-EM учитывает кривизну пространства признаков, определяемую Гессианом. Это позволяет более эффективно корректировать позиции кодовой книги, минимизируя ошибку квантования и улучшая качество представления данных. Использование Махаланобисова расстояния, взвешенного Гессианом, обеспечивает учет ковариации данных и позволяет адаптировать кодовую книгу к локальным особенностям распределения данных, что приводит к более точной квантизации и снижению потерь информации.

При использовании 2 бит на символ (2bpp) алгоритм OA-EM демонстрирует перплексию в 17.39 на тестовом наборе WikiText-2. Это значительно превосходит результат, полученный при использовании жадного (greedy) подхода к инициализации, который показывает перплексию 60.61 на том же наборе данных. Полученное снижение перплексии подтверждает эффективность OA-EM в уточнении и оптимизации кодовых книг для задач моделирования языка.

Проверка и Широкая Применимость AQLM

Методика AQLM, в сочетании с оптимизацией OA-EM, продемонстрировала свою эффективность при работе с широким спектром больших языковых моделей. Успешное применение было подтверждено на моделях Llama 3.1 8B, Llama 3.2 3B и Qwen 2.5 3B, что свидетельствует о её универсальности и адаптивности к различным архитектурам и размерам моделей. Данный факт подчеркивает потенциал AQLM как инструмента для повышения производительности и расширения возможностей существующих языковых моделей, вне зависимости от их специфических характеристик и области применения.

Тщательная оценка производительности модели AQLM осуществлялась с использованием метрик, таких как Perplexity, а также путем тестирования на разнообразных прикладных задачах. Полученные результаты демонстрируют значительное улучшение — в среднем на 1.7 процентных пункта — в точности выполнения этих задач при использовании OA-EM с квантованием 2bpp по сравнению с жадным алгоритмом (greedy baseline). Данное повышение подтверждает эффективность предложенного подхода к оптимизации больших языковых моделей и его применимость в реальных сценариях, требующих высокой точности и производительности.

Дальнейшее повышение эффективности достигается за счет тонкой настройки после квантования с использованием PV-Tuning. Этот метод позволяет значительно сократить разрыв между полноточными и квантованными моделями, снижая показатель Perplexity с 43 единиц до всего 0.23. Важно отметить, что PV-Tuning не только минимизирует потерю точности при квантовании, но и демонстрирует устойчивость к локальным минимумам — так называемую «basin persistence», — что обеспечивает стабильную и предсказуемую работу модели после оптимизации. Это свидетельствует о способности метода сохранять ключевые знания, приобретенные во время предварительного обучения, даже при значительном снижении точности представления весов.

Исследование показывает, что даже самые элегантные алгоритмы оптимизации, вроде предложенного OA-EM для инициализации кодовых книг, не избавят от необходимости учитывать исходные условия. Авторы верно подмечают, что траектория оптимизации крайне сжатых больших языковых моделей во многом определяется начальной инициализацией. Как метко заметила Барбара Лисков: «Программы должны быть спроектированы так, чтобы изменения в одной части не приводили к неожиданным последствиям в других». Это особенно актуально в контексте экстремальной квантизации, где малейшая погрешность в начале может привести к катастрофической потере производительности. Иначе говоря, даже самый продвинутый алгоритм не спасёт от плохой отправной точки — а это, как показывает практика, и есть главный источник технического долга.

Что дальше?

Представленная работа, безусловно, демонстрирует важность начальной инициализации кодовых книг для экстремальной квантизации больших языковых моделей. Однако, не стоит обольщаться: оптимизация траектории — это лишь одна из многих переменных, которые рано или поздно выйдут из-под контроля. Все эти изящные алгоритмы OA-EM неизбежно столкнутся с реальностью гетерогенного оборудования, меняющихся датасетов и, конечно же, с энтузиазмом продакшена, который всегда найдет способ превратить элегантное решение в монолит.

Вопрос репрезентативного соотношения, безусловно, интересен, но он лишь отодвигает проблему, а не решает её. Скорее всего, будущее за гибридными подходами, сочетающими различные стратегии квантизации и динамическую адаптацию кодовых книг. И, конечно, за постоянным поиском новых способов сжать ещё больше, даже если это означает незначительное ухудшение качества. Всё это уже было в 2012-м, только называлось «дистилляцией».

Если тесты показывают зелёный свет, это не гарантирует, что модель действительно работает, а лишь свидетельствует о том, что тесты недостаточно тщательно продуманы. Следующий шаг — это не улучшение алгоритма инициализации, а разработка более реалистичных и стрессоустойчивых бенчмарков. Иначе, все эти усилия окажутся бесполезными, когда модель столкнется с реальным пользовательским запросом.

Оригинал статьи: https://arxiv.org/pdf/2604.08118.pdf

Связаться с автором: https://www.linkedin.com/in/avetisyan/

Смотрите также:

2026-04-12 19:32