Искусственный интеллект и его уверенность: когда модели не знают, чего не знают

Автор: Денис Аветисян

Новое исследование показывает, что современные языковые модели часто переоценивают свою точность и не способны адекватно оценивать собственные знания.

"Покупай на слухах, продавай на новостях". А потом сиди с акциями никому не известной биотех-компании. Здесь мы про скучный, но рабочий фундаментал.

Бесплатный Телеграм канал

Представлен KalshiBench — новый бенчмарк для оценки калибровки больших языковых моделей с использованием механизмов предсказания рынков.

Несмотря на впечатляющие успехи больших языковых моделей (LLM) в решении разнообразных задач, их способность адекватно оценивать собственную неопределенность остается малоизученной. В работе «Do Large Language Models Know What They Don’t Know? Kalshibench: A New Benchmark for Evaluating Epistemic Calibration via Prediction Markets» представлен новый бенчмарк KalshiBench, основанный на рынках предсказаний, для оценки калибровки LLM. Результаты показывают, что современные модели систематически переоценивают свою уверенность, зачастую уступая даже базовым вероятностям, несмотря на попытки улучшить калибровку с помощью рассуждений. Подтверждает ли это, что масштабирование моделей и повышение их способности к рассуждениям не гарантируют адекватной оценки неопределенности, и какие новые подходы необходимы для развития этой критически важной способности?

Иллюзия Интеллекта: Калибровка как Ключевая Задача

Современные большие языковые модели демонстрируют впечатляющие возможности в обработке и генерации текста, однако их уверенность в ответах зачастую не соответствует фактической точности. Это несоответствие вызывает обоснованные опасения относительно надежности подобных систем. Модель может выдавать убедительные, но ошибочные утверждения, при этом демонстрируя высокий уровень уверенности в своей правоте. Такое поведение представляет серьезную проблему, особенно в контексте приложений, требующих высокой степени точности и надежности, таких как медицинская диагностика или финансовое прогнозирование. Неспособность адекватно оценивать собственную достоверность может привести к принятию неверных решений и, как следствие, к негативным последствиям.

Оценка эпистемической калибровки больших языковых моделей (LLM) — соответствия между заявленной уверенностью и фактической точностью — представляется важнейшей задачей для их ответственного внедрения. Несоответствие между этими показателями может приводить к ошибочным выводам и непредсказуемым последствиям, особенно в критически важных областях, таких как медицина или финансы. По сути, калибровка определяет, насколько можно доверять вероятностным оценкам, выдаваемым моделью, и позволяет оценить риск неверных предсказаний. Таким образом, разработка надежных методов оценки и повышения калибровки LLM является необходимым условием для их безопасного и эффективного использования в различных приложениях, требующих высокой степени надежности и точности.

Для обеспечения надёжности прогнозов, заявленная моделью уверенность в ответе должна соответствовать её фактической точности, то есть базовой вероятности правильного ответа. Исследования показывают, что современные передовые языковые модели демонстрируют значительное расхождение между уровнем уверенности и реальной достоверностью. В среднем, разница между заявленной уверенностью и фактической точностью составляет порядка 12 процентных пунктов. Это означает, что модель может с высокой уверенностью выдавать неверные ответы, что подрывает доверие к её предсказаниям и требует разработки методов калибровки для приведения уверенности в соответствие с фактической надёжностью.

KalshiBench: Новая Эра Оценки Калибровки

KalshiBench использует принципиально новый подход к оценке калибровки больших языковых моделей (LLM), применяя данные рынков предсказаний в качестве источника достоверной информации. В отличие от традиционных методов, полагающихся на размеченные датасеты, KalshiBench анализирует реальные прогнозы, сделанные участниками биржи Kalshi, где пользователи делают ставки на будущие события. Итоговый результат события, определенный на Kalshi, рассматривается как “истинное” значение, позволяющее оценить, насколько хорошо модель соотносит свои вероятностные прогнозы с фактическими исходами. Такой подход позволяет получить объективную оценку калибровки, основанную на коллективной мудрости рынка и подтвержденную финансовыми транзакциями.

В основе KalshiBench лежит механизм временной фильтрации (Temporal Filtering), предназначенный для исключения влияния запоминания прошлых событий на оценку калибровки больших языковых моделей. Данный метод предполагает использование только тех данных о событиях, которые произошли после момента, когда модель была обучена или когда были сделаны прогнозы. Это позволяет предотвратить ситуацию, когда модель просто «воспроизводит» известные результаты, а не демонстрирует истинную способность к предсказанию будущих событий. Временная фильтрация гарантирует, что оценка калибровки отражает способность модели к генерализации на новые, ранее не встречавшиеся данные, что критически важно для надежной оценки её прогностической силы.

KalshiBench использует данные с биржи Kalshi, регулируемой Комиссией по торговле товарными фьючерсами США (CFTC), что обеспечивает прозрачность и достоверность оценки калибровки больших языковых моделей. Использование регулируемого источника данных позволяет исключить манипуляции и гарантирует объективность результатов. Вся информация о событиях, используемых в качестве «истинных» значений, и соответствующих рыночных ценах доступна для публичного аудита, что способствует воспроизводимости и проверке оценок уверенности моделей. Регулируемый статус Kalshi также обеспечивает соответствие нормативным требованиям и повышает доверие к полученным данным.

Количественная Оценка: Метрики и Результаты

Для оценки точности вероятностных прогнозов в KalshiBench используются метрики, такие как $Brier Score$ и анализ диаграмм надежности. $Brier Score$ количественно оценивает расхождение между прогнозируемыми вероятностями и фактическими исходами, при этом более низкие значения указывают на более высокую точность. Диаграммы надежности визуализируют соответствие между прогнозируемой уверенностью и фактической частотой правильных прогнозов. Отклонения от диагонали на таких диаграммах указывают на систематические ошибки калибровки — переоценку или недооценку вероятностей. Комбинированное использование этих метрик позволяет комплексно оценить качество вероятностных прогнозов и выявить потенциальные проблемы с калибровкой моделей.

Оценка передовых языковых моделей показала тревожную тенденцию: высокая точность прогнозов не гарантирует их хорошую калибровку. Анализ с использованием метрики $ECE$ (Expected Calibration Error) для пяти передовых моделей выявил значительные расхождения между точностью и вероятностной оценкой. Значения $ECE$ варьируются от 0.120 до 0.395, что указывает на систематическую переоценку уверенности моделями в своих прогнозах, несмотря на высокую общую точность. Высокое значение $ECE$ свидетельствует о том, что предсказанные вероятности часто не соответствуют фактической частоте наступления событий.

Анализ частоты завышенной уверенности (Overconfidence Rate) в нескольких моделях выявил системную проблему в оценке уверенности большими языковыми моделями (LLM). Из протестированных моделей лишь одна продемонстрировала положительный показатель Brier Skill Score (BSS), варьирующийся от -0.799 до 0.057. Это указывает на то, что данная модель лишь незначительно превосходит базовый предиктор, основанный на частоте встречаемости событий, в то время как остальные модели демонстрируют результаты хуже, чем случайный выбор. Низкие значения $BSS$ подтверждают, что предсказанные вероятности не соответствуют фактической точности прогнозов.

За Пределами Точности: Последствия и Перспективы

Наблюдаемое расхождение между точностью и калибровкой демонстрирует, что даже модели с высокой общей точностью — в диапазоне от 65 до 69% — могут быть опасно самоуверенными в своих предсказаниях. Это означает, что модель, правильно отвечающая на большинство вопросов, всё равно может выдавать ложные утверждения с высокой степенью уверенности, что представляет серьёзную проблему для критически важных приложений. Такое несоответствие между фактической достоверностью и выраженной уверенностью может привести к ошибочным решениям, особенно в ситуациях, где полагаются на вероятностные прогнозы, например, в медицине или финансах. Несмотря на кажущуюся высокую производительность, отсутствие адекватной калибровки подрывает доверие к модели и требует разработки новых подходов к оценке и улучшению её надёжности.

Анализ результатов калибровки больших языковых моделей выявляет необходимость осторожной интерпретации, поскольку на точность оценки уверенности могут влиять различные факторы, в частности, так называемая “утечка информации из будущего” (Hindsight Leakage). Данное явление возникает, когда модель, обучаясь, неявно использует информацию, которая недоступна в момент реального применения, что приводит к завышенной оценке своей уверенности. Исследования показывают, что даже при высокой общей точности, в диапазоне от 65 до 69%, в случаях, когда модель демонстрирует наибольшую уверенность в своих предсказаниях (средняя уверенность от 74 до 82%), вероятность ошибки составляет от 15 до 32%. Этот разрыв между заявленной уверенностью и фактической точностью, известный как “Калибровочный разрыв”, подчеркивает важность критической оценки результатов и разработки методов, направленных на снижение влияния подобных систематических искажений при обучении и применении языковых моделей.

Перспективные исследования в области больших языковых моделей (LLM) должны быть сосредоточены на разработке новых методов обучения и архитектур, специально направленных на улучшение калибровки моделей. Недостаточная калибровка, когда модель необоснованно уверена в своих предсказаниях, может привести к ошибочным решениям, даже если общая точность высока. Разработка алгоритмов, которые не только максимизируют точность, но и обеспечивают адекватную оценку вероятности своих прогнозов, является ключевой задачей. Особое внимание следует уделить методикам, позволяющим модели различать ситуации, когда она действительно уверена в ответе, и когда ответ является скорее предположением. Такой подход позволит создать более надежные и заслуживающие доверия LLM, способные предоставлять не только правильные, но и хорошо обоснованные ответы, что критически важно для применения в ответственных областях, таких как медицина, финансы и юриспруденция.

Исследование, представленное в статье, демонстрирует систематическую переоценку возможностей больших языковых моделей, что особенно заметно при оценке их калибровки. Модели часто демонстрируют уверенность, не подкрепленную фактической точностью, и даже не превосходят базовый уровень прогнозирования. Как однажды заметила Грейс Хоппер: «Лучший способ предсказать будущее — создать его». Эта фраза отражает суть проблемы, поднятой в статье: недостаточно просто генерировать ответы, необходимо, чтобы модели понимали границы своей компетенции и адекватно оценивали степень своей уверенности. Калибровка, таким образом, является не просто метрикой, а способом создания более надежных и предсказуемых систем, способных к самооценке и адаптации во времени.

Куда же дальше?

Представленная работа, демонстрируя систематическую переоценку возможностей языковых моделей, лишь обнажает более глубокую проблему: неспособность систем адекватно оценивать собственную неопределенность. KalshiBench, как инструмент, выявляет не столько недостатки конкретных алгоритмов, сколько фундаментальное свойство любой сложной системы — склонность к самообману. Технический долг в данном случае — это не ошибка программирования, а память системы о неполноте собственного знания.

Перспективы развития кажутся неоднозначными. Стремление к «калибровке» — попытка навязать системе искусственное ограничение, которое, вероятно, лишь замаскирует истинный уровень некомпетентности. Более продуктивным представляется поиск способов моделирования и признания собственной неопределенности, создание систем, способных не просто давать ответы, но и оценивать вероятность их ошибочности. Любое упрощение, даже в целях повышения «надежности», неизбежно влечет за собой цену в будущем.

В конечном счете, вопрос не в том, чтобы научить модели «знать, чего она не знает», а в том, чтобы принять тот факт, что любая система, включая языковые модели, неизбежно ограничена в своем знании. Время — не метрика для улучшения показателей, а среда, в которой любая система стареет, и важно лишь, делает ли она это достойно, признавая свои пределы.

Оригинал статьи: https://arxiv.org/pdf/2512.16030.pdf

Связаться с автором: https://www.linkedin.com/in/avetisyan/

Смотрите также:

2025-12-21 19:27