Финансовый текст и числа: где ошибается BERTScore

Автор: Денис Аветисян


Новое исследование выявляет критические недостатки популярной метрики BERTScore при оценке систем обработки естественного языка в финансовой сфере.

"Покупай на слухах, продавай на новостях". А потом сиди с акциями никому не известной биотех-компании. Здесь мы про скучный, но рабочий фундаментал.

Бесплатный Телеграм канал
Процесс построения набора данных FinNuE представляет собой последовательность шагов, направленных на создание структурированной коллекции данных для решения задач, требующих точного анализа и обработки числовой информации, что обеспечивает основу для разработки и оценки алгоритмов в данной области.
Процесс построения набора данных FinNuE представляет собой последовательность шагов, направленных на создание структурированной коллекции данных для решения задач, требующих точного анализа и обработки числовой информации, что обеспечивает основу для разработки и оценки алгоритмов в данной области.

Оценка семантического сходства финансовых текстов с числовыми данными требует более точных метрик, чем BERTScore, из-за ее чувствительности к числовым значениям.

Несмотря на широкое распространение метрик оценки семантического сходства, таких как BERTScore, в задачах обработки естественного языка, их применимость к финансовому домену остается под вопросом. В работе ‘FinNuE: Exposing the Risks of Using BERTScore for Numerical Semantic Evaluation in Finance’ показано, что BERTScore демонстрирует низкую чувствительность к числовым изменениям, критичным для финансовой семантики – различие между прибылью в 2% и убытком в 20% зачастую игнорируется. Авторы представляют FinNuE – диагностический набор данных, специально разработанный для выявления этой проблемы в текстах из различных финансовых источников. Недостаточность существующих метрик ставит под сомнение надежность оценки систем финансового NLP – какие новые подходы к оценке необходимы для обеспечения точности и надежности анализа финансовых текстов?


Числовая Точность: Предел Семантического Сходства

Оценка систем генерации естественного языка (NLG) требует точного измерения семантической эквивалентности, сложной задачи даже при использовании современных метрик. Современные метрики, основанные на встраиваниях, такие как BERTScore, испытывают трудности с нюансами численной информации, критически важной в финансовых текстах. При сравнении предложений с численно близкими значениями, их производительность близка к случайной (49% точности). Данное ограничение препятствует надежной оценке приложений NLG в сфере финансов, где даже незначительные числовые расхождения имеют значение. Алгоритм либо корректен, либо ошибочен.

FinNuE: Диагностика Числовой Чувствительности

Для оценки числовой чувствительности метрик в задачах обработки естественного языка в финансовой сфере создан специализированный набор данных FinNuE. Этот набор предназначен для контролируемой оценки способности метрики различать семантические изменения, вызванные вариациями численных значений. FinNuE состоит из пар предложений, отличающихся только числовыми значениями, позволяя исследователям систематически оценивать, правильно ли метрика определяет влияние числовых изменений на семантическую близость предложений. Использование FinNuE позволяет проводить более точную и надежную оценку метрик, применяемых в задачах финансового NLP.

Оценка Чувствительности: Методы, Основанные на Якорях

Для строгой оценки чувствительности к числовым изменениям применяются протоколы оценки на основе «якорей», такие как триплетная и списочная оценка. Данные методы сравнивают исходное предложение с его числовыми вариантами, измеряя, насколько правильно метрика ранжирует исходное предложение ближе к наиболее близкому по значению числовому аналогу. FinBERT достиг точности в 91.86% при использовании триплетной оценки с рандомной аугментацией, bert-base – 92.14%. С аугментацией на основе правил FinBERT показал точность 84.31% против 83.09% для bert-base, демонстрируя улучшенную, но не идеальную, производительность.

Слабости BERTScore: Субъектность Токенизации

Использование субсловного токенизирования в BERTScore ограничивает его способность распознавать полную величину численных различий между предложениями, приводя к потере информации о значимых числовых значениях и недооценке различий. Жадный процесс выравнивания, хотя и эффективен, может приводить к ложным соответствиям и неточным оценкам, особенно при работе с числовыми значениями. Оценка списками с использованием bert-base дала коэффициент корреляции Кендалла $τ_b$ равный 0.54 при случайной аугментации и 0.342 при аугментации на основе правил, подчеркивая трудности BERTScore в распознавании нюансных числовых различий.

К Надежной Оценке Финансового NLP: Путь к Робастности

Использование моделей, таких как FinBERT, предварительно обученных на обширных финансовых текстах, способно повысить числовую чувствительность оценочных метрик. Перекрестная оценка показывает, что bert-base и FinBERT достигают схожей низкой точности (48.15% и 48.6% соответственно) при использовании аугментации на основе правил, что указывает на фундаментальную сложность распознавания тонких числовых изменений в финансовом контексте. Комбинирование специализированных моделей со строгими протоколами оценки, основанными на якорях, представляет собой перспективный путь к более надежной оценке. Дальнейшие исследования должны быть направлены на разработку метрик, учитывающих величину и контекст числовых данных в финансовых областях.

Исследование, представленное в данной работе, подчеркивает фундаментальную проблему оценки систем финансовой обработки естественного языка. Авторы убедительно демонстрируют, что метрики, такие как BERTScore, хоть и широко используемые, не способны адекватно отразить семантические нюансы, связанные с числовыми данными в финансовом контексте. Это особенно важно, поскольку даже незначительные погрешности в понимании числовой информации могут привести к существенным финансовым последствиям. Как однажды заметил Линус Торвальдс: «Плохой код похож на раковую опухоль: если его не удалить, он будет расти и распространяться». Аналогично, неадекватные метрики оценки, если их не скорректировать, могут искажать результаты и препятствовать развитию действительно надежных финансовых NLP-систем.

Куда двигаться дальше?

Представленная работа выявляет тревожную тенденцию: слепое доверие к метрикам, таким как BERTScore, в контексте финансовой семантики. За кажущейся элегантностью и удобством автоматизированной оценки скрывается фундаментальная проблема: неспособность этих метрик адекватно отразить нюансы численной информации. Полагаться на совпадение слов, когда речь идет о финансовых данных, – это все равно, что оценивать точность часов по красоте их циферблата.

Необходимо переосмыслить подходы к оценке систем обработки естественного языка в финансовой сфере. Эвристические решения, основанные на поверхностном сходстве, должны уступить место алгоритмам, способным к доказательному анализу численных значений и их влияния на общий смысл текста. Очевидна потребность в разработке специализированных метрик, учитывающих не только семантическую близость, но и количественную точность.

Будущие исследования должны быть направлены на создание бенчмарков, специально предназначенных для оценки численной чувствительности моделей. Эти бенчмарки должны включать в себя не только оценку точности извлечения чисел, но и анализ способности моделей понимать их контекстуальное значение. В конечном итоге, истинный прогресс в области финансового NLP будет достигнут лишь тогда, когда оценка систем станет основана на математической строгости, а не на статистической случайности.


Оригинал статьи: https://arxiv.org/pdf/2511.09997.pdf

Связаться с автором: https://www.linkedin.com/in/avetisyan/

Смотрите также:

2025-11-15 07:03