Двухэтапное мышление: как языковые модели учатся решать математические задачи
![Разработана двухэтапная система самосовершенствования, направленная на повышение математических способностей больших языковых моделей: на первом этапе генерируются высококачественные данные цепочки рассуждений с использованием многоходового логического вывода и фильтрации на основе правил для тонкой настройки [latex]\pi_{sft}[/latex], а на втором - применяется алгоритм отбора проб с учетом сложности, позволяющий отсеивать неудовлетворительные результаты [latex]\pi_{sft}[/latex] и, таким образом, оптимизировать модель до [latex]\pi_{rej}[/latex], способную эффективно решать сложные задачи.](https://arxiv.org/html/2601.05616v1/x1.png)
Новый подход к обучению больших языковых моделей демонстрирует значительное улучшение в решении математических задач, приближаясь по эффективности к методам дистилляции без использования внешних моделей.


