Слияние языковых моделей: новый подход к повышению стабильности и эффективности

Автор: Денис Аветисян

В статье представлен метод объединения больших языковых моделей, основанный на геометрическом анализе и позволяющий добиться лучших результатов, особенно при работе с моделями, обученными на разных данных.

"Покупай на слухах, продавай на новостях". А потом сиди с акциями никому не известной биотех-компании. Здесь мы про скучный, но рабочий фундаментал.

Бесплатный Телеграм канал

Предлагаемый метод слияния моделей, основанный на вычислении среднего Ка́ршера на многообразии Фи́шера-Рао, демонстрирует стабильность и превосходство в производительности при увеличении числа объединяемых моделей и их разнообразии, в отличие от евклидовых методов, которые подвержены резкому снижению качества с ростом неоднородности объединяемого набора.

Исследование использует концепцию среднего Каршера на многообразии Фишера-Рао для стабильного и эффективного слияния моделей.

Существующие подходы к объединению предобученных больших языковых моделей (LLM) часто сводятся к простым параметрическим усреднениям, игнорируя геометрическую структуру пространства весов. В работе ‘Functionality-Oriented LLM Merging on the Fisher—Rao Manifold’ предложен новый метод, рассматривающий объединение моделей как вычисление взвешенного среднего Каршера на многообразии Фишера — Рао, что позволяет минимизировать расхождение между предсказательными распределениями. Эксперименты демонстрируют, что данный подход обеспечивает стабильность и превосходит существующие методы, особенно при объединении разнородных моделей. Можно ли использовать аналогичные геометрические подходы для дальнейшей оптимизации и масштабирования процесса объединения LLM, открывая новые возможности для создания более эффективных и специализированных моделей?

Слияние LLM: Когда усреднение становится ошибкой

Объединение специализированных больших языковых моделей (LLM) представляется перспективным путем к созданию универсальных систем, однако наивные методы, такие как простое усреднение весов, зачастую приводят к ухудшению производительности. Вместо ожидаемого синергетического эффекта, подобный подход может привести к потере приобретенных знаний и снижению способности модели к решению задач. Это связано с тем, что усреднение не учитывает сложную структуру параметров, накопленную в процессе обучения каждой модели, и игнорирует взаимосвязи между ними. В результате, модель теряет специализацию и демонстрирует снижение общей эффективности, подчеркивая необходимость разработки более тонких и продуманных методов объединения LLM.

Простые методы объединения больших языковых моделей (LLM), такие как усреднение весов, часто терпят неудачу из-за неспособности учитывать сложную геометрию многомерного пространства параметров. Представьте себе, что каждый параметр LLM — это координата в этом пространстве, а вся модель — сложную структуру. Простое усреднение этих координат игнорирует взаимосвязи между ними и приводит к функциональному несоответствию, когда объединенная модель теряет способность выполнять задачи, которые успешно решали отдельные модели. Это похоже на попытку сложить векторы, не учитывая их направления — результат может быть далек от ожидаемого. В итоге, происходит коллапс — объединенная модель демонстрирует значительно сниженную производительность и теряет свои полезные свойства, что подчеркивает необходимость более изощренных подходов к слиянию LLM, учитывающих внутреннюю геометрию и сохраняющих функциональность каждой составляющей.

Суть проблемы заключается в том, что прямое манипулирование весами языковых моделей приводит к потере закодированной в них функциональности. Каждая модель, будучи результатом сложного процесса обучения, представляет собой многомерное пространство параметров, где определенные веса отвечают за конкретные навыки и способности — от понимания грамматики до генерации связного текста. Простое усреднение этих весов игнорирует взаимосвязи между ними и разрушает тонкую настройку, необходимую для эффективной работы модели. В результате, вместо создания единой, улучшенной модели, происходит ее деградация, поскольку ключевые функции и знания, приобретенные каждой из исходных моделей, оказываются утраченными или искаженными. Это подчеркивает необходимость разработки более изощренных методов объединения, учитывающих сложную структуру и семантическое значение каждого параметра.

Для эффективного объединения настроенных больших языковых моделей (LLM) требуется подход, учитывающий внутреннюю геометрию этих моделей. Простые методы, такие как усреднение весов, игнорируют сложность многомерного пространства параметров, что приводит к ухудшению производительности и потере функциональности. Более продвинутые стратегии стремятся сохранить структуру и взаимосвязи между параметрами, рассматривая их не как отдельные значения, а как точки в сложном геометрическом пространстве. Такой подход позволяет избежать «коллапса» модели и сохранить ее способность к генерации осмысленного и связного текста, обеспечивая более плавный и эффективный процесс объединения знаний, приобретенных каждой отдельной моделью. Игнорирование этой геометрии равносильно попытке сложить вместе сложные трехмерные объекты, не учитывая их форму и структуру — результат, скорее всего, будет далек от желаемого.

В отличие от методов интерполяции, слияние Каршера сохраняет как дисперсию активаций, так и их эффективный ранг на промежуточных и глубоких слоях трансформера, что свидетельствует о снижении коллапса представлений.

Многообразие моделей: Геометрия LLM

Каждая большая языковая модель (LLM) представляется как точка на многообразии Фишера-Рао, которое является геометрическим пространством, определяемым вероятностными распределениями, генерируемыми данной моделью. В данном контексте, каждая LLM характеризуется своим уникальным распределением вероятностей над токенами, и это распределение служит основой для определения её позиции в многомерном пространстве. Многообразие Фишера-Рао обеспечивает формальную математическую структуру для анализа и сравнения различных LLM, позволяя рассматривать их не как отдельные сущности, а как точки в непрерывном геометрическом пространстве, где близость точек отражает сходство в их вероятностных распределениях. Положение каждой модели определяется её параметрами и тем, как эти параметры влияют на генерируемые вероятности, что позволяет количественно оценить различия и сходства между LLM.

Многообразие моделей, представляющее собой геометрическое пространство, конструируется на основе предсказательных распределений (Predictive Distributions) и матрицы Фишера (Fisher Information Matrix). Предсказательные распределения описывают вероятностные прогнозы модели для заданного входа, а матрица Фишера предоставляет информацию о чувствительности этих распределений к изменениям параметров модели. Комбинация этих элементов позволяет формализовать понятие расстояния между различными языковыми моделями, определяя меру различия в их вероятностных прогнозах и параметрах. Использование матрицы Фишера обеспечивает принципиальный подход к измерению расстояний, основанный на информации о кривизне вероятностного пространства, что позволяет более точно оценивать различия между моделями, чем произвольные метрики.

Для количественной оценки различий между вероятностными распределениями, генерируемыми различными языковыми моделями, используется расхождение Кульбака-Лейблера (KL Divergence), также известное как относительная энтропия. $D_{KL}(P||Q) = \sum_{x} P(x) \log \frac{P(x)}{Q(x)}$ , где P и Q — вероятностные распределения, а суммирование производится по всем возможным значениям x. В контексте многообразия моделей, KL Divergence определяет метрику этого пространства, позволяя измерять «расстояние» между моделями на основе различий в их вероятностных предсказаниях. Чем больше значение KL Divergence между двумя моделями, тем более различны их вероятностные распределения и, следовательно, тем дальше они расположены на многообразии.

Геометрическое представление больших языковых моделей (LLM) в виде точек на многообразии Фишера-Рао обеспечивает надежную основу для определения осмысленных операций слияния, направленных на сохранение функциональности моделей. В частности, использование метрики, основанной на расхождении Кульбака-Лейблера $D_{KL}$ , позволяет количественно оценить различия между вероятностными распределениями, генерируемыми разными моделями, и, следовательно, определить расстояние между ними на многообразии. Это позволяет создавать новые модели путем объединения весов исходных моделей, минимизируя при этом потери функциональности, поскольку процесс слияния учитывает геометрические свойства пространства LLM и стремится сохранить близость результирующей модели к исходным.

Слияние по Каршера: Геометрический подход

Для нахождения оптимальной объединенной модели предлагается использование среднего Каршера, обобщения понятия среднего значения на римановы многообразия. В контексте больших языковых моделей, параметры моделей рассматриваются как точки на римановом многообразии, где метрика определяется структурой этих параметров. Среднее Каршера, вычисляемое как точка, минимизирующая сумму квадратов расстояний до всех исходных моделей, позволяет получить взвешенную комбинацию параметров, учитывающую геометрию пространства моделей. В отличие от простого усреднения весов, метод среднего Каршера учитывает кривизну многообразия, что потенциально обеспечивает более качественное объединение моделей и сохранение их выразительности. Вычисление среднего Каршера требует итеративного процесса, использующего логарифмическое и экспоненциальное отображения для навигации по многообразию. $\bar{w} = \arg\min_w \sum_{i=1}^n ||w - w_i||^2$ , где $w_i$ — параметры i-й модели.

Вычисление среднего Кархера осуществляется посредством итеративного уточнения с использованием итераций неподвижной точки. Этот процесс требует применения логарифмического $Log$ и экспоненциального $Exp$ отображений для навигации по кривизне многообразия, на котором определены веса моделей. Логарифмическое отображение переводит точку на многообразии в касательное пространство, позволяя выполнять операции в более простой евклидовой геометрии. Затем экспоненциальное отображение возвращает результат обратно на многообразие. Итерации продолжаются до сходимости, находя точку на многообразии, минимизирующую суммарное расстояние до исходных моделей. Данный подход позволяет учитывать геометрическую структуру пространства весов моделей, что критично для эффективного слияния.

Сферическое среднее Каршера представляет собой вычислительно эффективную аппроксимацию для нахождения оптимальной объединенной модели, особенно при работе с большими языковыми моделями (LLM). В отличие от точного вычисления среднего Каршера, требующего сложных операций на римановом многообразии, сферическое среднее использует проекцию весов на сферу, что значительно снижает вычислительную сложность. Это позволяет применять метод к моделям с миллиардами параметров, где точное вычисление становится непрактичным. Аппроксимация достигается за счет ограничения весов на единичную сферу, что упрощает итеративные вычисления, необходимые для схождения к оптимальному решению. В результате, сферическое среднее Каршера обеспечивает компромисс между точностью и вычислительной эффективностью, делая его применимым для задач объединения LLM в реальных условиях.

Сохранение нормы весов является критически важным аспектом в реализации Сферической Средней Каршера. Без поддержания нормы, процесс усреднения моделей может привести к экспоненциальному уменьшению величины весов $||w||$ , что негативно сказывается на выразительности и производительности результирующей модели. Уменьшение нормы весов приводит к снижению способности модели к обобщению и, как следствие, к ухудшению качества генерации или классификации. В рамках Сферической Средней Каршера применяются методы нормализации, обеспечивающие сохранение величины весов на каждой итерации, что позволяет избежать «схлопывания» модели и поддержать её функциональные возможности.

Предотвращение коллапса: Стабильность и разнообразие

Сферическое среднее Каршера (Spherical Karcher Mean) эффективно предотвращает проблемы, известные как коллапс дисперсии и коллапс ранга, которые часто возникают при использовании более простых методов объединения моделей. Эти проблемы проявляются в снижении разнообразия представлений и, как следствие, ухудшении обобщающей способности объединенной модели. В отличие от методов, основанных на простой интерполяции, $SKM$ оперирует непосредственно на Фишеровом многообразии, используя принципы римановой геометрии, что позволяет сохранять выразительность и разнообразие моделей даже при объединении значительного количества источников — в экспериментах демонстрировалась стабильная работа при объединении до 11 моделей. Поддерживая высокий эффективный ранг активаций, $SKM$ гарантирует, что объединенная модель способна эффективно представлять сложные зависимости в данных, избегая упрощения и потери информации, характерных для методов, подверженных коллапсу.

Подход, основанный на непосредственной работе с многообразием Фишера-Рао и использовании римановой геометрии, позволяет сохранять разнообразие и выразительность моделей при их объединении. В отличие от более простых методов, которые могут приводить к коллапсу ранга и дисперсии, данный метод рассматривает модели как точки на этом многообразии и использует геометрические принципы для нахождения оптимального объединения. Это гарантирует, что объединенная модель сохраняет информацию, представленную в каждой из исходных моделей, и не теряет свою способность к обобщению. $\mathcal{M}$ — многообразие, на котором определены операции, сохраняющие структуру данных и обеспечивающие устойчивость к коллапсу, что особенно важно при объединении большого количества моделей.

Исследование представляет новый метод объединения моделей, демонстрирующий стабильное превосходство над существующими подходами, такими как линейная интерполяция и Ties. В ходе экспериментов, предложенный метод неизменно показывал лучшие результаты при объединении до одиннадцати моделей на различных бенчмарках, включая GPQA-Diamond, HellaSwag, MMLU-Pro, MuSR и BBH. Полученные данные свидетельствуют о том, что разработанный подход позволяет более эффективно сохранять качество и производительность объединенной модели даже при значительном увеличении количества составляющих ее частей, что делает его перспективным инструментом для создания мощных и надежных систем искусственного интеллекта.

Исследования демонстрируют, что слияние моделей на основе сферического среднего Каршера эффективно предотвращает коллапс представлений, сохраняя более высокий ранг активаций на различных слоях нейронной сети. В отличие от более простых методов интерполяции, таких как Lerp и Ties, которые склонны к снижению ранга и, следовательно, к потере выразительности модели, Karcher-слияние поддерживает существенно больший эффективный ранг ( $EffRank$ ) активаций. Это указывает на то, что модель сохраняет больше независимых компонентов в своих представлениях, что позволяет ей лучше обобщать и решать более сложные задачи. Более высокий $EffRank$ свидетельствует о том, что слияние моделей не приводит к чрезмерному упрощению представлений, что критически важно для поддержания высокой производительности и стабильности объединенной модели.

Исследования показали, что предлагаемый метод объединения моделей демонстрирует превосходство над существующими подходами на широком спектре эталонных задач, включая GPQA-Diamond, HellaSwag, MMLU-Pro, MuSR и BBH. Преимущество сохраняется как при объединении двух, так и пяти моделей, причем стабильная производительность поддерживается даже при увеличении числа объединенных моделей до одиннадцати. Это свидетельствует о надежности и масштабируемости подхода, позволяя эффективно использовать преимущества нескольких моделей без потери качества и обобщающей способности, что особенно важно для сложных задач искусственного интеллекта.

Сферическая интерполяция (SLERP) оказывается частным случаем более общего подхода — сферического среднего Каршера (Spherical Karcher Mean). Этот факт подчеркивает глубокую теоретическую обоснованность предложенного метода, интегрируя хорошо известную и изученную технику интерполяции в более широкую математическую структуру. В то время как SLERP эффективно работает в определенных условиях, сферическое среднее Каршера предоставляет обобщенный фреймворк, позволяющий решать задачу объединения моделей более гибко и эффективно, особенно при работе с большим количеством моделей или сложными распределениями параметров. $\text{SKM} = \arg\min_{\theta} \sum_{i=1}^{n} ||\theta - \theta_i||^2$ Это означает, что SLERP можно рассматривать как упрощенный вариант, автоматически включающийся в более мощный механизм, что подтверждает надежность и универсальность предложенного подхода к объединению моделей.

Исследование демонстрирует стремление к стабильности в области, где её практически не бывает. Авторы пытаются усреднить модели, используя изящный математический аппарат — многообразие Фишера — Рао. Однако, даже самые элегантные решения в конечном итоге сталкиваются с суровой реальностью продакшена. Как справедливо заметил Бертран Рассел: «Всё, что кажется очевидным, обычно неверно». Здесь, в попытке создать нечто новое из старого, неизбежно возникают проблемы совместимости и непредсказуемые сбои. Усреднение моделей, вычисленное на основе геодезических расстояний, может и улучшить стабильность, но, вероятно, лишь отсрочит неизбежное — появление новых ошибок и необходимость патчей. Система, стабильно падающая, по крайней мере, последовательна в своей несостоятельности.

Что дальше?

Предложенный подход к объединению языковых моделей, основанный на вычислении среднего Ка́ршера на многообразии Фи́шера — Рао, выглядит, конечно, элегантно. Но не стоит обольщаться. История показывает, что каждая новая метрика, каждый новый способ «измерить» разнообразие моделей, рано или поздно превращается в очередной источник головной боли при масштабировании. Разговор о «геодезических расстояниях» и «функциональных расстояниях» звучит красиво, пока не столкнёшься с реальными данными, где дивергенция Кульбака — Лейблера ведёт себя непредсказуемо, а многообразие Фишера-Рао оказывается не таким уж и гладким.

Более того, улучшенная стабильность при объединении «разнородных» моделей — это, скорее, временное облегчение. Продакшен всегда найдёт способ выдать запрос, который сломает даже самую изящную систему. Вполне вероятно, что следующие исследования будут посвящены не поиску «идеальной» метрики, а разработке методов робастного восстановления после неизбежных сбоев.

В конечном счёте, всё это — лишь очередная обёртка над старыми проблемами. Всё новое — это просто старое с худшей документацией. И пусть эта элегантная математика приносит пользу сейчас, через несколько лет она станет частью техдолга, с которым придётся разбираться следующим поколениям исследователей.

Оригинал статьи: https://arxiv.org/pdf/2603.04972.pdf

Связаться с автором: https://www.linkedin.com/in/avetisyan/

Смотрите также:

2026-03-07 10:09