Разумный сжатие: как повысить эффективность логических рассуждений ИИ

Автор: Денис Аветисян


Новый подход позволяет значительно сократить объем информации, генерируемой нейросетями при решении задач, не теряя при этом точности и обоснованности выводов.

"Покупай на слухах, продавай на новостях". А потом сиди с акциями никому не известной биотех-компании. Здесь мы про скучный, но рабочий фундаментал.

Бесплатный Телеграм канал
В рамках разработанной системы ConMax, обучение стратегии с использованием обучения с подкреплением позволяет сжимать многословные цепочки рассуждений, при этом составная функция вознаграждения балансирует уверенность в ответе и уверенность в процессе мышления, обеспечивая оптимальное сжатие без потери качества рассуждений.
В рамках разработанной системы ConMax, обучение стратегии с использованием обучения с подкреплением позволяет сжимать многословные цепочки рассуждений, при этом составная функция вознаграждения балансирует уверенность в ответе и уверенность в процессе мышления, обеспечивая оптимальное сжатие без потери качества рассуждений.

В статье представлена система ConMax, использующая обучение с подкреплением для сжатия цепочек рассуждений больших языковых моделей с максимизацией уверенности в валидности и предсказательной точности.

Несмотря на значительные успехи в области больших языковых моделей, генерация развернутых цепочек рассуждений (Chain-of-Thought) часто приводит к избыточности и увеличению вычислительных затрат. В данной работе представлена методика ‘ConMax: Confidence-Maximizing Compression for Efficient Chain-of-Thought Reasoning’ — новый алгоритм, использующий обучение с подкреплением для автоматического сжатия цепочек рассуждений с сохранением ключевых логических связей. ConMax максимизирует уверенность модели как в конечном ответе, так и в валидности самого процесса рассуждения, обеспечивая оптимальный баланс между эффективностью и точностью. Сможет ли предложенный подход существенно снизить затраты на обучение и развертывание сложных систем искусственного интеллекта, способных к логическому мышлению?


Бесконечная Детализация: Цена Сложных Рассуждений

Крупные языковые модели, демонстрирующие впечатляющие результаты в решении сложных задач, активно используют метод последовательного рассуждения, известный как Chain-of-Thought (CoT). Однако, несмотря на эффективность этого подхода, модели зачастую генерируют избыточно детализированные и чрезмерно многословные цепочки рассуждений. Этот феномен, характеризующийся “переосмыслением” очевидных шагов, приводит к увеличению вычислительных затрат и замедлению работы, что препятствует широкому внедрению этих мощных инструментов в практические приложения. Модели, стремясь к максимальной точности, иногда включают в свои рассуждения излишнюю информацию, которая не влияет на конечный результат, тем самым снижая общую эффективность процесса.

Несмотря на впечатляющую способность больших языковых моделей к сложному рассуждению, проявляющуюся в применении метода «цепочки рассуждений», чрезмерная детализация этих процессов приводит к значительному увеличению вычислительных затрат. Данное «переосмысливание» каждого шага, хотя и теоретически способствующее повышению точности, на практике затрудняет практическое внедрение этих моделей в реальные приложения. Более длинные цепочки рассуждений требуют больше памяти и времени обработки, что делает их непригодными для использования в условиях ограниченных ресурсов или при необходимости быстрой реакции. Таким образом, потенциал больших моделей к решению сложных задач нивелируется из-за их неэффективности, создавая серьёзное препятствие для их широкого распространения.

Существующие методы оптимизации больших языковых моделей, способных к сложному рассуждению, сталкиваются с серьезной проблемой: баланс между глубиной анализа и вычислительной эффективностью. Несмотря на впечатляющие возможности, демонстрируемые при использовании цепочки рассуждений (Chain-of-Thought), модели часто генерируют избыточно подробные и затянутые цепочки выводов. Это приводит к значительному увеличению требуемых вычислительных ресурсов и времени обработки, что препятствует их практическому внедрению, особенно в условиях ограниченных ресурсов или необходимости оперативного реагирования. Попытки сократить объем рассуждений, как правило, негативно сказываются на точности и надежности получаемых результатов, создавая узкое место в производительности больших языковых моделей и ограничивая их потенциал.

Обучение модели Qwen2.5-14B с использованием ConMax позволило получить более лаконичные и логически связные цепочки рассуждений по сравнению с обучением на исходных данных, сохранив при этом ключевые этапы логического вывода и значительно сократив количество токенов.
Обучение модели Qwen2.5-14B с использованием ConMax позволило получить более лаконичные и логически связные цепочки рассуждений по сравнению с обучением на исходных данных, сохранив при этом ключевые этапы логического вывода и значительно сократив количество токенов.

ConMax: Укрощение Многословности в Рассуждениях

ConMax представляет собой фреймворк обучения с подкреплением, предназначенный для сжатия многословных цепочек рассуждений. В основе работы лежит максимизация вознаграждения, основанного на оценке достоверности (confidence) каждого шага рассуждений. Фреймворк обучается выбирать, какие шаги оставить в цепочке, а какие удалить, стремясь к сокращению длины рассуждений при сохранении или улучшении точности предсказаний. Процесс обучения происходит путем определения оптимальной политики сжатия, которая максимизирует совокупное вознаграждение, отражающее как точность ответа, так и уверенность в каждом шаге рассуждений.

В основе ConMax лежит использование замороженной (не подлежащей обучению) вспомогательной языковой модели (LRM) для оценки уверенности как в конечном ответе, так и в промежуточных шагах рассуждений. Эта модель, функционируя как внешний оценщик, присваивает каждому токену (слову или части слова) оценку уверенности, отражающую вероятность его важности для получения правильного ответа. Полученные оценки уверенности используются для направления политики сжатия, позволяя системе избирательно удалять менее уверенные шаги рассуждений, сохраняя при этом ключевую логическую цепочку и общую точность прогнозирования. Использование замороженной LRM обеспечивает стабильность оценки и предотвращает её адаптацию к конкретной задаче сжатия, что способствует обобщающей способности системы.

Подход ConMax позволяет выборочно удалять избыточные этапы рассуждений, не снижая при этом прогностическую точность. Это достигается за счет использования замороженной вспомогательной языковой модели (LRM) для оценки уверенности как в конечном ответе, так и в промежуточных шагах рассуждений. Удаление этапов происходит на основе анализа уверенности: шаги с низкой уверенностью, не влияющие на общую точность предсказания, отбрасываются. В результате происходит сжатие цепочки рассуждений без потери качества решения, что особенно важно для больших языковых моделей и задач, требующих объяснимого ИИ.

В основе механизма сжатия ConMax лежит подход, называемый «Сжатие с максимизацией уверенности» (Confidence-Maximizing Compression). Он функционирует путем оценки каждого токена в процессе рассуждения с использованием баллов уверенности, генерируемых замороженной вспомогательной языковой моделью (LRM). Токены с наивысшими баллами уверенности сохраняются, в то время как токены с низкими баллами, считающиеся избыточными или несущественными для конечного ответа, удаляются. Этот процесс позволяет избирательно сокращать цепочку рассуждений, при этом сохраняя или даже улучшая точность предсказаний за счет фокусировки на наиболее информативных шагах.

В отличие от базового уровня, ConMax демонстрирует более выраженный пик распределения сгенерированных токенов на меньшей длине, что свидетельствует о более лаконичной генерации.
В отличие от базового уровня, ConMax демонстрирует более выраженный пик распределения сгенерированных токенов на меньшей длине, что свидетельствует о более лаконичной генерации.

Оптимизация Сжатия с Помощью Обучения с Подкреплением

Оптимизация политики сжатия осуществлялась с применением алгоритма обучения с подкреплением Group Relative Policy Optimization (GRPO). GRPO представляет собой надежный алгоритм, способствующий стабильному обучению в сложных средах за счет групповой относительной оптимизации, что позволяет эффективно исследовать пространство действий и находить оптимальные стратегии сжатия. В отличие от традиционных методов обучения с подкреплением, GRPO минимизирует дисперсию оценок градиента, что приводит к более быстрому и надежному сходимости процесса обучения и повышению общей производительности политики сжатия.

Формирование функции вознаграждения играет ключевую роль в обучении политики сжатия. Для направления политики к генерации лаконичных и информативных трасс рассуждений, необходимо тщательно спроектировать вознаграждение, учитывающее как длину сгенерированной трассы, так и ее способность поддерживать правильный ответ. Недостаточное вознаграждение за краткость может привести к избыточно длинным трассам, а отсутствие вознаграждения за информативность — к генерации нерелевантных или неполных рассуждений. Эффективная функция вознаграждения комбинирует метрики длины (например, количество токенов) с метриками качества рассуждений, полученными, например, из оценки уверенности модели Qwen2.5 в правильности каждого шага рассуждений.

Обучение и оценка разработанной политики компрессии осуществлялись на разнообразных наборах данных, включающих NuminaMath, AIME2025, MATH500 и GPQA. Для количественной оценки эффективности компрессии в качестве основной метрики использовалась длина токенов (Token Length), позволяющая измерить степень сокращения входной последовательности без потери информативности. Использование этих наборов данных и метрики позволяет объективно оценить способность политики к эффективной компрессии и поддержанию высокой производительности в различных математических задачах и задачах общего назначения.

В качестве ключевого компонента используется модель Qwen2.5, выполняющая две функции: оценку достоверности сгенерированных решений и, потенциально, роль базовой языковой модели для сжатия. Применение данного подхода позволило добиться снижения длины процесса инференса на 43% без ухудшения производительности. Оценка достоверности, выполняемая Qwen2.5, позволяет определить, насколько уверенно модель пришла к тому или иному выводу, что является важным фактором при принятии решений о сжатии. Использование Qwen2.5 в качестве базовой модели для сжатия направлено на оптимизацию процесса генерации ответов и снижение объема необходимых вычислений.

Системная подсказка используется для обучения модели сжатию многословных цепочек рассуждений.
Системная подсказка используется для обучения модели сжатию многословных цепочек рассуждений.

Влияние и Перспективы Эффективных Рассуждений

Метод ConMax демонстрирует впечатляющие показатели сжатия данных в различных наборах, значительно сокращая длину входных последовательностей без существенной потери качества ответов. В ходе экспериментов с моделью Qwen2.5-7B удалось добиться уменьшения длины вывода на 43%, при этом снижение производительности составило всего 0.7%. Такое сжатие открывает возможности для развертывания больших языковых моделей на устройствах с ограниченными ресурсами и снижает вычислительные затраты, связанные с процессами логического вывода и рассуждений.

Возможность развертывания больших языковых моделей (LRM) на устройствах с ограниченными ресурсами открывает новые перспективы для широкого спектра приложений. Благодаря снижению вычислительных затрат, связанных с процессами логического вывода, становится возможным использование сложных моделей на мобильных устройствах, встроенных системах и других платформах с ограниченной мощностью. Это, в свою очередь, позволяет расширить доступ к передовым возможностям искусственного интеллекта, таким как обработка естественного языка, анализ данных и принятие решений, даже в условиях ограниченных аппаратных ресурсов. Снижение вычислительной нагрузки также способствует уменьшению энергопотребления и снижению затрат на инфраструктуру, что делает использование LRM более экономически эффективным и экологически устойчивым.

Процесс обучения с учителем, известный как Supervised Fine-Tuning (SFT), позволяет значительно улучшить характеристики сжатых языковых моделей. Исследования показывают, что применение SFT не только повышает точность ответов, но и способствует увеличению эффективности обработки данных. В результате тонкой настройки, модель способна более оптимально использовать сжатые представления информации, что приводит к снижению вычислительных затрат и повышению скорости работы. Таким образом, сочетание сжатия моделей и последующего обучения с учителем открывает новые возможности для развертывания мощных систем искусственного интеллекта на устройствах с ограниченными ресурсами и в условиях высокой нагрузки.

Исследования показали значительное улучшение производительности модели Qwen-2.5-7B при использовании метода ConMax на тестовом наборе данных GPQA. В частности, зафиксировано повышение точности на 6,4% по сравнению с базовой моделью без сжатия. Этот результат демонстрирует, что предложенный подход не только позволяет сократить вычислительные затраты и длину входных данных, но и способствует повышению качества рассуждений модели в задачах, требующих глубокого понимания и логического вывода. Улучшение производительности на GPQA, известном своей сложностью и разнообразием вопросов, подчеркивает потенциал данного метода для применения в широком спектре задач искусственного интеллекта.

Наблюдатель отмечает, что стремление к компрессии рассуждений, как это демонстрирует ConMax, неизбежно напоминает попытки втиснуть слона в «облако». Идея максимизации уверенности в процессе сжатия, безусловно, элегантна, но история учит, что любая оптимизация рано или поздно превращается в новый вид технических долгов. Как говорил Анри Пуанкаре: «Наука не строит метафизических конструктций, она лишь организует факты». В данном случае, ConMax организует факты рассуждений, стараясь сделать их более компактными, но фундаментальная сложность задачи остаётся. Система, стабильно выдающая сжатые, но валидные цепочки рассуждений, по крайней мере, последовательна в своей неэффективности. И, возможно, это — высшая форма инженерного искусства.

Что дальше?

Представленный фреймворк ConMax, безусловно, демонстрирует интересную попытку обуздать многословность больших языковых моделей. Однако, стоит помнить, что любая компрессия — это всегда потеря. И дело не в самом алгоритме, а в неизбежной деградации «разумности», когда из цепочки рассуждений вырывают наиболее «уверенные» фрагменты. В конечном итоге, всегда найдётся краевой случай, где уверенность модели обернётся катастрофической ошибкой. Этот метод, вероятно, выиграет в скорости, но цена этого выигрыша — неясна.

В ближайшем будущем, скорее всего, увидим гонку за всё более изощрёнными функциями вознаграждения, пытаясь «научить» модель отличать действительно валидные рассуждения от просто правдоподобных. Но стоит задаться вопросом: не приведёт ли это к созданию ещё более хитрых и непредсказуемых «чёрных ящиков»? И не окажется ли так, что иногда лучше монолитный, хоть и медленный, процесс рассуждений, чем сто микросервисов, каждый из которых оптимизирован для максимальной самоуверенности.

В конечном счёте, задача не в том, чтобы сжать цепочку рассуждений, а в том, чтобы понять, что вообще представляет собой «разумность» в контексте машинного обучения. И это — задача, которая, вероятно, останется нерешенной ещё очень долго.


Оригинал статьи: https://arxiv.org/pdf/2601.04973.pdf

Связаться с автором: https://www.linkedin.com/in/avetisyan/

Смотрите также:

2026-01-10 17:40