Двухэтапное мышление: как языковые модели учатся решать математические задачи

Автор: Денис Аветисян

Новый подход к обучению больших языковых моделей демонстрирует значительное улучшение в решении математических задач, приближаясь по эффективности к методам дистилляции без использования внешних моделей.

"Покупай на слухах, продавай на новостях". А потом сиди с акциями никому не известной биотех-компании. Здесь мы про скучный, но рабочий фундаментал.

Бесплатный Телеграм канал

Разработана двухэтапная система самосовершенствования, направленная на повышение математических способностей больших языковых моделей: на первом этапе генерируются высококачественные данные цепочки рассуждений с использованием многоходового логического вывода и фильтрации на основе правил для тонкой настройки [latex]\pi_{sft}[/latex], а на втором - применяется алгоритм отбора проб с учетом сложности, позволяющий отсеивать неудовлетворительные результаты [latex]\pi_{sft}[/latex] и, таким образом, оптимизировать модель до [latex]\pi_{rej}[/latex], способную эффективно решать сложные задачи. — Разработана двухэтапная система самосовершенствования, направленная на повышение математических способностей больших языковых моделей: на первом этапе генерируются высококачественные данные цепочки рассуждений с использованием многоходового логического вывода и фильтрации на основе правил для тонкой настройки $\pi_{sft}$ , а на втором — применяется алгоритм отбора проб с учетом сложности, позволяющий отсеивать неудовлетворительные результаты $\pi_{sft}$ и, таким образом, оптимизировать модель до $\pi_{rej}$ , способную эффективно решать сложные задачи.

Исследование представляет двухэтапную стратегию контролируемого обучения с использованием многооборотного диалога и выборочной режекции, ориентированной на сложность задачи.

Несмотря на впечатляющие успехи больших языковых моделей (LLM) в решении сложных задач, включая математические, существующие подходы часто полагаются на обучение с подкреплением, упуская из виду потенциал контролируемой тонкой настройки. В статье «Dual-Phase LLM Reasoning: Self-Evolved Mathematical Frameworks» предложен новый двухэтапный метод, основанный на многооборотном диалоге и интеллектуальной выборке данных, позволяющий значительно улучшить самокоррекцию и логическое мышление моделей. Данный подход демонстрирует, что контролируемая тонкая настройка эффективно активирует внутренние возможности LLM в математических рассуждениях, превосходя по эффективности альтернативные методы, и открывает путь к более ресурсоэффективной оптимизации. Сможем ли мы, используя подобные методы, создать LLM, способные решать математические задачи на уровне экспертов, не прибегая к сложным алгоритмам обучения с подкреплением?

Вызовы Глубокого Рассуждения в Больших Языковых Моделях

Несмотря на значительные достижения в области разработки больших языковых моделей (БЯМ), они часто демонстрируют трудности при решении сложных задач, требующих многоступенчатого рассуждения. Это ограничивает их надежность в критически важных приложениях, таких как диагностика заболеваний, финансовый анализ и научные исследования. БЯМ способны генерировать правдоподобные тексты, однако им часто не хватает способности последовательно применять логические правила и выводить обоснованные заключения из представленных данных. Вместо глубокого анализа проблемы, модели склонны полагаться на статистические закономерности, что приводит к ошибкам и неточностям в сложных сценариях, где требуется не просто воспроизведение информации, а ее осмысление и применение.

Несмотря на впечатляющий прогресс в области больших языковых моделей, простое увеличение их размера перестает приносить ожидаемые результаты. Традиционный подход, основанный на масштабировании количества параметров, демонстрирует тенденцию к снижению эффективности — каждый следующий прирост вычислительных ресурсов даёт всё меньше улучшения в способности к сложному рассуждению. Это требует перехода к новым архитектурам, которые делают акцент не на грубой силе, а на более эффективных алгоритмах обработки информации и построении логических цепочек. Исследователи всё активнее изучают подходы, позволяющие моделям более осознанно планировать свои действия, проверять промежуточные результаты и выделять наиболее важные аспекты задачи, что позволит добиться значительного улучшения в решении сложных проблем, не прибегая к неограниченному увеличению вычислительных мощностей.

Современные большие языковые модели (БЯМ) часто демонстрируют неустойчивость в проверке последовательности своих умозаключений, что приводит к ошибкам и противоречиям в полученных решениях. Неспособность последовательно оценивать каждый шаг рассуждений является критическим ограничением, особенно в задачах, требующих высокой точности и надежности. Исследования показывают, что даже незначительные неточности на ранних этапах логической цепочки могут привести к значительному искажению конечного результата. В отличие от человеческого мышления, где самопроверка и коррекция ошибок являются неотъемлемой частью процесса, БЯМ часто продолжают выстраивать решение, основываясь на ошибочных предпосылках. Это проявляется в неспособности модели идентифицировать логические противоречия или подтвердить достоверность использованной информации, что ставит под сомнение ее применимость в критически важных областях, таких как медицина или финансы.

Модель демонстрирует способность к самокоррекции, сначала выдавая неверный ответ из-за неоптимальной стратегии, а затем используя обратный ход и факторизацию для выявления промежуточных возможностей оптимизации, что позволяет получить корректный ответ [latex]47\frac{4}{7}[/latex] и подтверждает наличие встроенных способностей к рассуждению. — Модель демонстрирует способность к самокоррекции, сначала выдавая неверный ответ из-за неоптимальной стратегии, а затем используя обратный ход и факторизацию для выявления промежуточных возможностей оптимизации, что позволяет получить корректный ответ $47\frac{4}{7}$ и подтверждает наличие встроенных способностей к рассуждению.

Усиление Рассуждений с Помощью Расширенных Цепочек Мыслей

Метод длинной цепочки рассуждений (Long Chain-of-Thought Reasoning) представляет собой перспективный подход к улучшению способности моделей к рассуждениям, основанный на явном детализированном описании каждого шага процесса принятия решения. Вместо прямого получения ответа, модель генерирует последовательность промежуточных заключений, логически связывающих исходные данные с конечным результатом. Это позволяет не только получить более точные ответы, но и сделать процесс рассуждения более прозрачным и интерпретируемым, облегчая выявление и исправление ошибок. Данный подход особенно эффективен при решении сложных задач, требующих многоэтапного анализа и синтеза информации, поскольку обеспечивает структурированный и последовательный подход к решению проблемы.

Внедрение механизмов возврата к предыдущим шагам (backtracking) и выделения подцелей в цепях рассуждений позволяет моделям корректировать ошибочные пути и решать сложные задачи, разбивая их на более мелкие, управляемые этапы. Механизм возврата предполагает пересмотр предыдущих шагов при обнаружении противоречий или тупиковых ситуаций, что позволяет модели исследовать альтернативные решения. Выделение подцелей, в свою очередь, обеспечивает декомпозицию исходной задачи на последовательность более простых задач, что упрощает процесс рассуждений и повышает общую эффективность. Комбинация этих двух подходов значительно улучшает способность модели к адаптации и решению сложных проблем, требующих последовательного анализа и коррекции стратегии.

Применение контролируемой тонкой настройки (Supervised Fine-Tuning) к цепочкам рассуждений, в сочетании с акцентом на проверку промежуточных шагов, существенно повышает точность и устойчивость этих цепочек. Процесс тонкой настройки включает в себя обучение модели на наборе данных, содержащем примеры рассуждений с размеченными промежуточными этапами и правильными ответами. Особое внимание уделяется обучению модели оценивать корректность каждого промежуточного шага, что позволяет ей выявлять и корректировать ошибки на ранних стадиях. Это, в свою очередь, приводит к снижению количества логических ошибок и повышению надежности конечного результата, особенно в сложных задачах, требующих многоступенчатого рассуждения. Методы верификации промежуточных шагов могут включать в себя использование дополнительных моделей для проверки согласованности или применение правил логического вывода.

Схема самогенерируемых данных с длинной цепочкой рассуждений позволяет получать ответы [latex]Answer_1[/latex] и [latex]Answer_2[/latex] на основе исходной задачи и эталонного ответа, после чего анализ этих ответов формирует переходный текст, а их обобщение - синтетическую проверку. — Схема самогенерируемых данных с длинной цепочкой рассуждений позволяет получать ответы $Answer_1$ и $Answer_2$ на основе исходной задачи и эталонного ответа, после чего анализ этих ответов формирует переходный текст, а их обобщение — синтетическую проверку.

Самосинтез: Генерация Данных для Надежного Долгосрочного Рассуждения

Генерация самосинтезируемых данных представляет собой эффективный метод расширения обучающего набора разнообразными и сложными примерами рассуждений. В отличие от традиционных методов, требующих ручной аннотации или использования существующих датасетов, данный подход позволяет автоматически создавать новые обучающие примеры, нацеленные на повышение устойчивости и точности моделей при решении задач, требующих многоступенчатого логического вывода. Этот процесс позволяет целенаправленно увеличивать количество примеров, содержащих сложные логические связи и требующих глубокого понимания предметной области, что особенно важно для улучшения производительности моделей в задачах, где доступ к размеченным данным ограничен.

Для генерации данных, пригодных для обучения моделей рассуждения, используется двухэтапная схема. На первом этапе применяется метод отбора проб с учетом сложности (Difficulty-Aware Rejection Sampling), который позволяет отсеивать примеры, не представляющие достаточной сложности для эффективного обучения. На втором этапе реализуется стратегия многоходового диалога (Multi-Turn Dialogue Strategy), в рамках которой модель генерирует данные, взаимодействуя сама с собой, что способствует созданию более комплексных и разнообразных сценариев рассуждения. Данный подход обеспечивает как высокое качество сгенерированных данных, так и фокусировку на наиболее сложных задачах, требующих продвинутых навыков рассуждения.

Процесс самосинтеза данных обогащается за счет использования данных, полученных методом дистилляции цепочки рассуждений (Chain-of-Thought) из модели GPT, а также специализированных наборов данных, таких как NuminaMath и OpenMathInstruct-2. Это создает положительную обратную связь, позволяющую последовательно улучшать качество генерируемых данных. На основе 8000 сгенерированных примеров, модель демонстрирует точность 92.3% на наборе данных GSM8K и 76.0% на MATH500, что подтверждает эффективность данного подхода к расширению обучающей выборки.

Обучение с Подкреплением для Оптимизации Путей Рассуждения

Методы обучения с подкреплением (RL) предлагают принципиально новый подход к оптимизации процессов рассуждений, выходящий за рамки традиционной оптимизации конечного результата. В отличие от обычных моделей, которые оценивают только правильность ответа, RL использует как модели вознаграждения за результат (outcome reward models), так и модели вознаграждения за процесс (process reward models). Это позволяет системе не просто научиться выдавать правильные ответы, но и освоить эффективные стратегии рассуждений, поощряя отдельные шаги, ведущие к решению. Такой подход позволяет моделировать и улучшать сам процесс мышления, а не только его конечный продукт, что особенно важно при решении сложных задач, требующих последовательных логических выводов и анализа.

Методики обучения с подкреплением на основе правил позволяют четко задавать стимулы за корректные шаги рассуждений, что способствует выработке у моделей устойчивых стратегий решения задач. Вместо простого вознаграждения за конечный результат, система оценивает и поощряет каждый логический переход, формируя у искусственного интеллекта понимание не только “что” правильно, но и “как” к этому прийти. Такой подход, фокусируясь на процессе рассуждения, а не только на результате, позволяет модели избегать случайных успехов и строить более надежные и обобщаемые решения, особенно в сложных областях, требующих последовательного применения логических правил и промежуточных выводов.

Применение разработанного подхода к сложным наборам данных, таким как GSM8K, MATH500 и AIME24, продемонстрировало значительное повышение эффективности решения математических задач. В частности, на наборе данных AIME24 достигнута точность в 16.7%, что свидетельствует о способности модели успешно справляться с задачами, требующими глубокого логического мышления и сложных вычислений. Более того, наблюдалось относительное улучшение точности на 67% по сравнению с исходными показателями, подтверждающее эффективность предложенного метода в оптимизации процесса рассуждений и повышении общей производительности в решении математических задач различной сложности. Это указывает на перспективность использования данного подхода для создания более интеллектуальных систем, способных к самостоятельному решению сложных задач.

Будущее Рассуждений: Масштабируемый и Адаптируемый Интеллект

Сочетание самогенерируемых данных с обучением с подкреплением открывает новые возможности для создания больших языковых моделей (БЯМ), превосходящих традиционные подходы. Вместо полагаться исключительно на существующие наборы данных, модели учатся, генерируя собственные примеры задач и используя механизм вознаграждения для улучшения своих навыков решения. Этот процесс позволяет БЯМ не только достигать высокой точности в решении известных задач, но и демонстрировать значительную адаптивность к новым, ранее не встречавшимся типам рассуждений. Такой подход позволяет моделям самостоятельно расширять свои знания и навыки, что является ключевым шагом к созданию действительно масштабируемых и надежных систем искусственного интеллекта, способных решать сложные проблемы в различных областях науки и техники.

Для оценки и дальнейшего развития новых методов в области рассуждений искусственного интеллекта, критически важную роль играют специализированные наборы данных, такие как DeepScaleR. Этот датасет, наряду с использованием передовых моделей, включая DeepSeek-r1 и Qwen2.5-7B-Instruct, позволяет проводить тщательное тестирование и валидацию алгоритмов. Именно благодаря подобным инструментам исследователи могут не только измерять текущий уровень производительности, но и выявлять слабые места, направляя усилия на создание более надежных и адаптивных систем, способных эффективно решать сложные задачи в различных областях знаний.

Исследования показали значительное сокращение длины токенов при использовании нового подхода к обучению больших языковых моделей, в частности, на наборе данных GSM8K показатель снизился с 11 695,97 до 941,94. Такое уменьшение не только повышает эффективность обработки информации, но и открывает путь к созданию действительно масштабируемых и надежных систем рассуждений. Этот прогресс имеет потенциал для широкого спектра применений, начиная от автоматизированного решения сложных задач и заканчивая ускорением научных открытий, поскольку позволяет моделям обрабатывать больше информации за меньшее время и с большей точностью.

Исследование демонстрирует, что даже самые передовые языковые модели подвержены процессу старения в контексте математического рассуждения. Подобно тому, как любое улучшение со временем теряет свою новизну, так и способность модели к решению сложных задач требует постоянной адаптации и переобучения. Работа акцентирует внимание на двухфазном подходе к обучению, стремясь замедлить этот процесс старения за счет использования многооборотного диалога и отбора сложных примеров. Как справедливо заметил Андрей Колмогоров: «Математика — это искусство невозможного». Иными словами, постоянное стремление к преодолению трудностей, представленное в данной работе через усложнение задач и улучшение стратегий обучения, является ключом к поддержанию высокой производительности языковой модели во времени.

Что дальше?

Представленная работа, безусловно, демонстрирует способность к локальной оптимизации — языковая модель, подобно любому механизму, подвержена износу, и методы тонкой настройки выступают в роли смазки. Однако, иллюзия прогресса не должна заслонять фундаментальный вопрос: достаточно ли «обучения на диалоге» для создания действительно мыслящей системы, или это лишь очередная форма усложнения, маскирующая отсутствие истинного понимания? Отказ от внешней дистилляции, хоть и элегантен, лишь отодвигает проблему — куда девается «технический долг» в процессе самосовершенствования модели?

Будущие исследования, вероятно, столкнутся с необходимостью разработки метрик, способных оценивать не просто «правильность» ответа, а устойчивость рассуждений во времени. Аптайм модели, ее способность к последовательному решению задач, — это редкая фаза гармонии во временном потоке, а не абсолютная характеристика. Интересно, смогут ли методы, вдохновленные биологическими системами, предложить решения, позволяющие моделям «стареть достойно», сохраняя функциональность даже при накоплении «когнитивного мусора»?

В конечном счете, задача состоит не в том, чтобы создать модель, решающую математические задачи, а в том, чтобы понять, что вообще значит «решать» в контексте искусственного интеллекта. Все системы стареют — вопрос лишь в том, как долго они смогут поддерживать иллюзию разумности перед лицом неизбежной энтропии.

Оригинал статьи: https://arxiv.org/pdf/2601.05616.pdf

Связаться с автором: https://www.linkedin.com/in/avetisyan/

Смотрите также:

2026-01-13 04:32