Числовые иллюзии: как легко обмануть языковые модели при проверке фактов

Автор: Денис Аветисян

Новое исследование показывает, что даже незначительные изменения в числовых данных могут существенно повлиять на способность больших языковых моделей определять достоверность информации.

"Покупай на слухах, продавай на новостях". А потом сиди с акциями никому не известной биотех-компании. Здесь мы про скучный, но рабочий фундаментал.

Бесплатный Телеграм канал

Работа посвящена анализу устойчивости больших языковых моделей к числовым возмущениям при проверке фактов и предлагает методы повышения надежности через оптимизацию промптов.

Несмотря на впечатляющие успехи больших языковых моделей в задачах, требующих знаний, их надежность при работе с числовой информацией остается под вопросом. В работе ‘NumPert: Numerical Perturbations to Probe Language Models for Veracity Prediction’ проведена систематическая оценка современных моделей на предмет проверки достоверности числовых утверждений, используя контролируемые возмущения для выявления уязвимостей. Полученные результаты демонстрируют, что даже передовые системы могут показывать значительное снижение точности – до 62% – при определенных возмущениях, а устойчивость к ним отсутствует у всех протестированных моделей. Можно ли разработать эффективные стратегии промптинга, которые повысят надежность языковых моделей при проверке числовых фактов и позволят преодолеть существующие ограничения?

Временные Искажения: Вызовы Числового Рассуждения в Верификации Фактов

Автоматизированная проверка фактов всё больше опирается на языковые модели, однако последние часто демонстрируют неустойчивость при работе с утверждениями, содержащими точные числовые значения. Это связано с тем, что модели, обученные преимущественно на текстовых данных, испытывают трудности с пониманием количественных соотношений и выполнением точных вычислений, необходимых для верификации числовых фактов. В то время как модели превосходно справляются с обработкой языка, способность к строгому числовому рассуждению остаётся слабым местом, что приводит к ошибкам при оценке правдивости утверждений, содержащих, например, даты, статистические данные или денежные суммы. Данная проблема существенно ограничивает возможности автоматизированной проверки фактов в областях, где точность количественных данных имеет решающее значение.

Традиционные методы проверки фактов часто сталкиваются с трудностями при работе с количественными утверждениями, что приводит к ненадежным прогнозам их истинности. Проблема заключается в том, что существующие подходы, как правило, не способны эффективно обрабатывать числовые данные и логически выводить правильные заключения на их основе. Например, при оценке утверждений, содержащих конкретные числа или статистические данные, модели склонны к ошибкам из-за неточного понимания взаимосвязей между величинами или неспособности выполнять простые арифметические операции. Это особенно заметно при анализе сложных утверждений, требующих нескольких этапов рассуждений с использованием числовой информации. В результате, даже небольшие погрешности в обработке количественных данных могут привести к существенным ошибкам в определении правдивости утверждения, что подрывает доверие к автоматизированным системам проверки фактов.

Для оценки систем автоматической проверки фактов, особенно в отношении утверждений, содержащих числовые данные, необходимы специализированные наборы данных, такие как QuanTemp. Исследования, использующие такие наборы, выявили существенные ограничения современных языковых моделей. В частности, при проверке утверждений с маскированными числовыми значениями, в условиях “нулевого обучения” (zero-shot), передовые модели демонстрируют уязвимость, достигая точности менее 26%. Это указывает на необходимость разработки новых подходов к числовому рассуждению и проверки фактов, способных более надежно обрабатывать количественные утверждения и обеспечивать достоверность информации.

Проверка на Прочность: Численные Возмущения как Инструмент Оценки

Численное возмущение (Numerical Perturbation) представляет собой систематический подход к оценке устойчивости языковых моделей путём внесения небольших изменений в числовые значения, содержащиеся в утверждениях. Данный метод позволяет выявить, насколько незначительные модификации в числовых данных влияют на способность модели правильно интерпретировать и оценивать истинность утверждений. В ходе тестирования, оригинальные числовые значения заменяются слегка измененными, что позволяет оценить чувствительность модели к подобным вариациям. Целью является количественная оценка способности модели сохранять корректность ответов при небольших отклонениях в числовых данных, что является важным показателем её надёжности и применимости в реальных задачах.

Методы Num Perturbation, Approx Perturbation и Range Perturbation позволяют целенаправленно изменять числовую информацию в утверждениях для оценки устойчивости языковых моделей. Num Perturbation предполагает незначительное изменение численных значений, например, замену “5” на “5.1”. Approx Perturbation заменяет числа на их ближайшие приближенные значения, такие как округление до целого числа. Range Perturbation, в свою очередь, изменяет числовые значения в пределах заданного диапазона, позволяя оценить, насколько критичны точные значения для правильной интерпретации утверждения. Каждый из этих методов предоставляет контролируемый способ манипулирования числовыми данными и анализа влияния этих изменений на ответы модели.

Для оценки чувствительности языковых моделей применяются различные методы числовых возмущений, включая маскирование (Mask Perturbation), возмущение отрицательными числами (Neg-Num Perturbation) и случайную замену чисел (Rand-Repl Perturbation). Метод маскирования заключается в замене числовых значений на специальный токен, имитирующий отсутствие информации. Возмущение отрицательными числами предполагает замену положительных чисел на отрицательные с тем же абсолютным значением. Случайная замена предполагает замену исходного числа на другое случайное число. Экспериментальные данные показывают, что модели особенно уязвимы к возмущениям, связанным с маскированием числовых данных и заменой чисел на отрицательные, что свидетельствует о сложностях с обработкой отсутствующих или измененных числовых значений.

Предварительная обработка входных данных, включающая использование библиотеки Word2Number и NER (Named Entity Recognition) от SpaCy, является критически важной для точной идентификации и нормализации числовых значений в утверждениях. Word2Number преобразует числовые слова (например, «двадцать три») в их числовой эквивалент ($23$), обеспечивая единообразное представление. SpaCy NER, в свою очередь, используется для выявления числовых сущностей в тексте, что позволяет отделить их от других элементов и подготовить к дальнейшей обработке. Некорректная идентификация или нормализация числовых данных может привести к ложным результатам при оценке устойчивости языковых моделей к числовым возмущениям, поэтому точное применение этих инструментов является необходимым условием для проведения надежного анализа.

Направляя Рассуждения: Методы Промптинга для Устойчивости к Возмущениям

Для управления процессом рассуждений языковых моделей исследователи используют различные стратегии промптинга. Zero-Shot Prompting предполагает предоставление модели задачи без каких-либо примеров, полагаясь на её общие знания и способность к обобщению. В свою очередь, Two-Shot Prompting включает в себя предоставление модели двух примеров решения задачи перед запросом к ней, что позволяет ей лучше понять ожидаемый формат ответа и повысить точность. Обе стратегии направлены на то, чтобы направить модель к правильному ответу, используя минимальное количество дополнительной информации и максимально используя её внутренние знания.

Метод “Perturbation-Aware Prompting” повышает устойчивость языковых моделей к незначительным изменениям во входных данных путем включения в промпт примеров, демонстрирующих искаженные утверждения и ожидаемые ответы. Этот подход позволяет модели научиться распознавать и корректно обрабатывать вариации в формулировках, например, числовые изменения, которые могут повлиять на верность предсказаний. Включение таких примеров в промпт служит своего рода “обучением на контрастах”, позволяя модели лучше обобщать знания и избегать ошибок, вызванных небольшими отклонениями от исходного утверждения. Эффективность данного метода заключается в предоставлении модели явных сигналов о том, как следует реагировать на пертурбированные входные данные, тем самым повышая ее надежность и точность.

Для оценки устойчивости больших языковых моделей, таких как DeepSeek-R1, Qwen3, Llama3, Mistral, GPT-4o и Gemini, проводится тестирование их способности корректно оценивать правдивость утверждений при числовых изменениях. В ходе экспериментов установлено, что модель Llama 3.3-70B демонстрирует точность в 63% при определении правдивости утверждений, содержащих отрицательные числа, в условиях zero-shot prompting. В то же время, DeepSeek-R1 в аналогичных условиях показывает 6.98% случаев выдачи невалидного ответа, что свидетельствует о различной устойчивости моделей к числовым возмущениям.

Анализ токенов рассуждений выявил проблему, известную как «чрезмерное обдумывание» (Overthinking), заключающуюся в генерации избыточно длинных цепочек рассуждений, что потенциально снижает производительность модели. В частности, при анализе модели Gemini 2.5FT было установлено, что в случаях неправильной классификации длина цепочки рассуждений в среднем на 15% превышает длину цепочки при корректных предсказаниях. Данный факт указывает на то, что излишняя детализация и сложность рассуждений могут приводить к ошибкам в процессе принятия решений моделью.

Влияние на Надежность: Значение Устойчивости к Численным Искажениям

Способность сохранять точность при незначительных числовых изменениях в исходных данных имеет решающее значение для создания надежных систем проверки фактов. Исследования показывают, что даже небольшие возмущения в числовых значениях могут привести к значительным ошибкам в ответах языковых моделей, особенно при работе с длинным контекстом. Поэтому, устойчивость к таким возмущениям является ключевым показателем надежности, поскольку реальные данные часто содержат неточности или неполноту. Разработка систем, способных корректно обрабатывать незначительные числовые вариации, позволяет значительно повысить доверие к результатам проверки фактов и минимизировать риск распространения ложной информации, особенно в областях, где точность числовых данных критически важна, таких как научные исследования или финансовый анализ.

Исследование влияния различных методов возмущения данных позволяет существенно повысить эффективность и точность оценки языковых моделей. Анализ того, как незначительные изменения в числовых значениях влияют на результаты проверки фактов, дает возможность выявлять слабые места в архитектуре моделей и разрабатывать более целенаправленные стратегии тестирования. Вместо использования стандартных, усредненных метрик, можно создавать специализированные тесты, имитирующие реальные сценарии, где числовые данные могут быть неточными или искажены. Это позволяет более реалистично оценивать устойчивость моделей к ошибкам и, следовательно, повышать их надежность в задачах, требующих высокой точности числовых расчетов и логических выводов. Такой подход особенно важен для систем, работающих с финансовой информацией, научными данными или другими областями, где даже небольшие погрешности могут привести к серьезным последствиям.

Исследование продемонстрировало значительный потенциал использования численных возмущений в качестве эффективного инструмента для выявления уязвимостей и повышения надёжности языковых моделей при проверке фактов в длинных контекстах. В частности, разработанный подход, известный как Perturbation-Aware Prompting (PAP), позволяет достигать впечатляющей точности – до 99% – при использовании с моделями Qwen3-32BT и DeepSeek-R1. Этот метод предполагает намеренное внесение небольших числовых изменений в исходные данные, что позволяет оценить устойчивость модели к незначительным отклонениям и выявить потенциальные ошибки в логических выводах. Полученные результаты подчеркивают важность разработки стратегий, учитывающих влияние числовых возмущений, для создания более надежных и точных систем проверки фактов, особенно в условиях работы с длинными и сложными текстами, где даже небольшие ошибки могут привести к серьезным последствиям.

Данное исследование закладывает основу для разработки усовершенствованных стратегий промптинга и архитектур моделей, способных более точно и надёжно выполнять задачи, связанные с числовым рассуждением. Поскольку современные языковые модели часто демонстрируют уязвимость к незначительным изменениям в числовых данных, акцент смещается на создание методов, которые не только идентифицируют эти слабые места, но и активно противостоят им. Перспективы включают в себя разработку новых типов промптов, учитывающих потенциальные числовые возмущения, а также проектирование архитектур моделей, встроенных механизмов устойчивости к подобным помехам. В конечном итоге, это позволит создавать системы проверки фактов, способные сохранять высокую точность даже в условиях неполной или искажённой числовой информации, что критически важно для повышения доверия к автоматизированным системам принятия решений и анализа данных.

Исследование, представленное в данной работе, подчеркивает уязвимость больших языковых моделей перед даже незначительными числовыми возмущениями при проверке фактических утверждений. Данный аспект перекликается с философией, согласно которой любая система со временем устаревает, и её устойчивость определяется способностью адаптироваться к изменениям. Как отмечал Джон Маккарти: «Наилучшим способом предсказания будущего является его создание.» – эта мысль отражает необходимость активного совершенствования методов проверки фактов и повышения надежности языковых моделей, чтобы обеспечить их долговечность и актуальность в постоянно меняющемся информационном пространстве. Устойчивость системы, особенно в контексте обработки числовых данных, требует не только точной обработки, но и способности противостоять внешним возмущениям.

Куда же дальше?

Представленная работа, подобно любому коммиту в долгой истории версий, фиксирует состояние дел на текущий момент. Обнаруженная уязвимость больших языковых моделей к незначительным числовым возмущениям – закономерный этап. Все системы стареют, и задача не в том, чтобы избежать этого, а в том, чтобы достойно пройти через неизбежное. Задержка в исправлении подобных ошибок – это, по сути, налог на амбиции, плата за стремление к созданию все более сложных систем.

Очевидно, что акцент сместится в сторону разработки более устойчивых механизмов проверки фактов, способных учитывать не только явные противоречия, но и тонкие искажения в числовых данных. Потребуется выйти за рамки простого сопоставления фактов и перейти к моделированию когнитивных процессов, лежащих в основе человеческой верификации. Вопрос в том, сможет ли модель различать случайную ошибку и намеренную дезинформацию, что требует глубокого понимания контекста и намерений.

Время – это не метрика, а среда, в которой существуют системы. Будущие исследования, вероятно, будут сосредоточены на адаптивном обучении, позволяющем моделям самостоятельно выявлять и корректировать уязвимости в процессе эксплуатации. Не исключено, что ключом к решению проблемы окажется не совершенствование алгоритмов проверки фактов, а создание систем, способных признавать собственную некомпетентность и запрашивать дополнительную информацию.

Оригинал статьи: https://arxiv.org/pdf/2511.09971.pdf

Связаться с автором: https://www.linkedin.com/in/avetisyan/

Смотрите также:

2025-11-16 13:57