Автор: Денис Аветисян
Как большие языковые модели, несмотря на умение выполнять точные вычисления, демонстрируют недостаток гибкости и предпочитают сложные вычисления простым приближениям.
"Покупай на слухах, продавай на новостях". А потом сиди с акциями никому не известной биотех-компании. Здесь мы про скучный, но рабочий фундаментал.
Бесплатный Телеграм канал
Исследование поведения больших языковых моделей при решении математических задач и выявление тенденции к избыточной точности.
Несмотря на впечатляющие успехи больших языковых моделей (LLM) в точных вычислениях, их способность к приближенным оценкам в реальных сценариях остается малоизученной. В данной работе, ‘StreetMath: Study of LLMs’ Approximation Behaviors’, представлен бенчмарк StreetMath и проведен анализ различных LLM-архитектур с целью оценки их навыков приближенного вычисления. Результаты демонстрируют, что модели склонны к точным вычислениям даже там, где достаточно было бы быстрой оценки, потребляя при этом больше ресурсов. Не отражает ли это отсутствие у LLM когнитивной бережливости, свойственной человеку при решении задач «устного счета» в повседневной жизни, и какие механизмы необходимо разработать для повышения их эффективности в подобных задачах?
Приближение как Основа Разумности
Человек редко стремится к абсолютной точности, предпочитая приближенные решения в повседневных задачах. Это отражает принцип когнитивной бережливости – стремление мозга к экономии ресурсов. Быстрое, достаточно точное решение – эффективная стратегия, сформированная эволюцией.
Приоритет скорости над точностью, характерный для «Системного мышления 1», позволяет оперативно реагировать на изменения. Понимание этой врожденной склонности важно для оценки способности больших языковых моделей (LLM) к разумному поведению.
LLM, несмотря на вычислительную мощность, часто прибегают к точному вычислению, даже когда достаточно приблизительного решения. Наше исследование демонстрирует, что модели склонны к предоставлению точных ответов. Это подчеркивает разницу между человеческим и машинным мышлением.
Стремление к точности – лишь одна из стратегий. Иногда изящное решение – не абсолютная истина, а умение уловить суть, отбросив излишнюю детализацию.
Оценка Рассуждений: Набор Данных StreetMath и Производительность LLM
Для оценки навыков приближенного вычисления LLM был создан набор данных StreetMath, включающий 1000 задач, основанных на бытовых вычислениях (суммы, пересчеты, чаевые). Этот набор данных позволяет тестировать модели в задачах, требующих интуитивного мышления.
Первоначальные результаты показывают, что LLM часто демонстрируют предпочтение точным вычислениям, даже когда приближенное решение равноценно. Показатель «Хорошей Приближенности» оставался ниже потенциального.
Количество токенов использовалось как прокси для эффективности рассуждений: меньше токенов – эффективнее. Qwen3-4B-Thinking-2507 использовал 228 токенов, а Qwen3-4B-Instruct-2507 – 125, что показывает, что улучшение приближенности может потребовать на 82% больше токенов.
Архитектурные Инсайты: Анализ Внутренних Представлений
Внутренние механизмы LLM (Авторегрессивный декодер, Модель пространства состояний, Диффузионная языковая модель) исследовались с целью понимания процессов рассуждения. Диагностика на уровне слоев позволила отследить поток информации и оценить размерность и разнообразие представлений.
Методы прунинга (удаления параметров) использовались для определения вклада различных компонентов в точность и эффективность. Анализ округления с помощью линейного зондирования выявил смещения в отношении определенных числовых значений. Mamba-GPT-3B достигает 99.9% точности округления до ближайшего целого, но не всегда использует эту способность в простых задачах.

Точность округления на основе слов оказалась ниже, что указывает на трудности с абстрагированием числовых значений. Полученные результаты углубляют понимание внутренней работы LLM и факторов, влияющих на их способность к рассуждению.
К Человекоподобному Рассуждению: Последствия и Перспективы
Результаты исследований указывают на возможность управления LLM в направлении более эффективного рассуждения путем приоритезации приближений и снижения зависимости от точных вычислений. Традиционная оптимизация LLM часто ориентирована на повышение точности, что может приводить к росту вычислительных затрат.
Метод «Цепочки рассуждений» может быть ценным, но требует баланса с готовностью к приближенным решениям. Стремление к абсолютной точности в сложных задачах может быть контрпродуктивным.
Дальнейшие исследования будут сосредоточены на разработке архитектурных инноваций, поощряющих приближения, вдохновленных принципами когнитивной бережливости. Такой сдвиг может привести к созданию LLM, которые будут не только мощными, но и устойчивыми, требующими меньше ресурсов.
Суть интеллекта – не в стремлении к абсолютной истине, а в умении находить достаточно хорошее решение, используя ограниченные ресурсы.
Исследование поведения больших языковых моделей в математических задачах выявляет интересную тенденцию к излишней точности. Модели, стремясь к абсолютно верному ответу, часто игнорируют возможности быстрой и достаточной аппроксимации, что демонстрирует отсутствие когнитивной гибкости, свойственной человеку. В этом контексте, слова Марвина Мински приобретают особую актуальность: “Любая интеллектуальная машина должна уметь отделять важное от неважного.” Модели, зацикливаясь на точных вычислениях даже там, где достаточно оценочного ответа, словно упускают из виду эту простую истину, усложняя процесс решения задачи и демонстрируя незрелость в когнитивном плане. Вместо того, чтобы стремиться к совершенству через упрощение, они предпочитают сложность ради иллюзии точности.
Что дальше?
Настоящее исследование выявило склонность больших языковых моделей к излишней вычислительной точности, даже в ситуациях, где приближение было бы более целесообразным. Это не ошибка, но закономерность, отражающая определенную архитектурную инерцию. Модели, обученные на огромных массивах данных, демонстрируют не гибкость мышления, а скорее, оптимизацию по принципу минимальных затрат ресурсов – своеобразную «когнитивную бережливость», лишенную нюансов человеческого понимания.
Перспективы дальнейших исследований лежат в плоскости преодоления этой инерции. Необходимо исследовать, возможно ли внедрение механизмов, имитирующих человеческую способность к «уличному счету» – быстрому и интуитивному приближению. Важно также понять, как эта склонность к точности влияет на другие области применения моделей, где приближение может быть не просто допустимо, но и предпочтительно. Простое увеличение масштаба моделей не решит проблему; требуется переосмысление принципов обучения и архитектуры.
Иронично, но стремление к совершенству в искусственном интеллекте часто оборачивается его противоположностью. Истинная эффективность заключается не в достижении абсолютной точности, а в умении находить оптимальный баланс между точностью и вычислительными затратами. Именно в этой плоскости следует искать дальнейшие пути развития.
Оригинал статьи: https://arxiv.org/pdf/2510.25776.pdf
Связаться с автором: https://www.linkedin.com/in/avetisyan/
Смотрите также:
- Будущее KCS: прогноз цен на криптовалюту KCS
 - Падение акций Navitas Semiconductor: дьявольская сделка и танец ставок
 - Аналитический обзор рынка (04.11.2025 04:45)
 - Палантин и его дьявольская сделка: прогноз после 4 августа
 - Нужны ли дивиденды на долгие годы? 2 актива с высокой доходностью для покупки и бесконечного удержания
 - Starbucks все еще требует времени
 - Инвестиционный обзор и ключевые инвестиционные идеи воскресенье, 26 октября 2025 9:49
 - Лучшие акции S&P 500 июля 2025 года: тонкие нюансы успеха
 - Почему акции Navitas Semiconductor рухнули сегодня
 - Стоит ли покупать евро за малайзийские ринггиты сейчас или подождать?
 
2025-11-02 16:11