Искусственный интеллект в финансах: что на самом деле думает машина?

Автор: Денис Аветисян

Новое исследование показывает, насколько хорошо большие языковые модели понимают и объясняют свои решения при классификации финансовых данных.

"Покупай на слухах, продавай на новостях". А потом сиди с акциями никому не известной биотех-компании. Здесь мы про скучный, но рабочий фундаментал.

Бесплатный Телеграм канал

Несмотря на согласованность в объяснениях, предоставляемых большими языковыми моделями (LLM) и их значениями SHAP для наиболее значимых признаков, сохраняются заметные расхождения в оценке важности отдельных признаков, что указывает на сложность интерпретации внутренних механизмов принятия решений этими моделями.

Оценка достоверности и применимости SHAP-значений для больших языковых моделей, работающих с табличными финансовыми данными.

Несмотря на растущий интерес к использованию больших языковых моделей (LLM) для задач классификации, их надежность в работе со структурированными данными, особенно в критически важных областях вроде финансовой оценки рисков, остается под вопросом. Настоящее исследование, озаглавленное ‘Measuring What LLMs Think They Do: SHAP Faithfulness and Deployability on Financial Tabular Classification’, систематически оценивает LLM и анализирует их значения SHAP на задачах финансовой классификации. Полученные результаты выявили расхождение между самообъяснениями LLM о влиянии признаков и их фактическими значениями SHAP, а также существенные отличия от аналогичных показателей, полученных для модели LightGBM. Возможно ли повышение доверия к LLM в сфере финансовых технологий за счет улучшения механизмов интерпретируемости и применения методов обучения с небольшим количеством примеров?

Раскрытие Потенциала: LLM в Финансовом Прогнозировании

На протяжении многих лет алгоритмы, такие как LightGBM и XGBoost, являлись основой оценки финансовых рисков, однако они демонстрируют ограниченные возможности при работе со сложными, нелинейными зависимостями в структурированных данных. Традиционные методы, как правило, требуют значительной предварительной обработки и инженерной доработки признаков, чтобы эффективно выявлять тонкие взаимосвязи, скрытые в финансовых показателях. В ситуациях, когда взаимосвязи между переменными не являются линейными или включают в себя сложные взаимодействия, эффективность этих алгоритмов снижается, что приводит к менее точным прогнозам и потенциально увеличивает финансовые риски. Это особенно актуально в современных финансовых рынках, характеризующихся высокой волатильностью и непредсказуемостью, где способность выявлять и учитывать сложные зависимости имеет решающее значение.

В настоящее время, в области финансового прогнозирования, большие языковые модели (БЯМ) представляют собой принципиально новый подход. В отличие от традиционных методов, таких как LightGBM и XGBoost, требующих значительной предварительной обработки данных и сложной разработки признаков, БЯМ способны к обучению с нулевыми примерами (zero-shot learning). Проведенное исследование демонстрирует, что применение БЯМ к табличным финансовым данным позволяет достичь существенного улучшения показателей, выраженного в среднем увеличении PR-AUC (площади под кривой точности-полноты) в диапазоне от 1.05 до 1.54 раза по сравнению с базовыми моделями. Это указывает на потенциал БЯМ в автоматизации и повышении точности финансовых прогнозов, снижая зависимость от трудоемкой ручной разработки признаков и открывая новые возможности для анализа данных.

Для успешного применения больших языковых моделей (LLM) к финансовым табличным данным требуется разработка инновационных подходов, преодолевающих разрыв между текстово-ориентированными моделями и структурированной числовой информацией. Традиционные LLM изначально предназначены для обработки естественного языка, поэтому прямое применение к числовым данным невозможно. Исследователи активно изучают методы преобразования табличных данных в текстовый формат, например, путем описания каждой строки или столбца в виде предложения. Другой подход заключается в использовании эмбеддингов для представления числовых значений в виде векторов, которые могут быть обработаны LLM. Эти методы позволяют LLM извлекать сложные закономерности и зависимости из финансовых данных, что открывает новые возможности для прогнозирования рисков и улучшения финансовых стратегий. Эффективное объединение сильных сторон LLM с особенностями табличных данных — ключевая задача для дальнейшего развития этой области.

Интеграция LLM: Стратегии Преодоления Разрыва

Методы TabLLM и ZET-LLM представляют собой инновационные подходы к адаптации больших языковых моделей (LLM) для задач финансового прогнозирования. Оба подхода основаны на преобразовании структурированных данных из табличных строк в форматы, пригодные для обработки LLM — либо в виде текстовых описаний, либо в виде векторных представлений (эмбеддингов). Такое преобразование позволяет LLM, таким как Qwen-2.5-7B, Llama-3.2-3B, Gemma-2-9B и Mistral-7B-v0.3, напрямую анализировать и извлекать знания из структурированных финансовых данных, без необходимости ручной разработки признаков или сложных преобразований данных.

Подходы TabLLM и ZET-LLM позволяют напрямую использовать большие языковые модели (LLM), такие как Qwen-2.5-7B, Llama-3.2-3B, Gemma-2-9B и Mistral-7B-v0.3, для анализа структурированных финансовых данных. Вместо традиционных методов, требующих преобразования данных в векторные представления, эти модели могут обрабатывать финансовые данные, представленные в табличном формате, как последовательности текста или используя встраивания признаков. Это позволяет LLM применять свои возможности рассуждения и анализа к финансовым данным без необходимости предварительной обработки, ориентированной на традиционные алгоритмы машинного обучения. Данные преобразуются в формат, понятный языковой модели, что позволяет ей извлекать закономерности и делать прогнозы непосредственно на основе табличной информации.

Применение больших языковых моделей (LLM) в задачах финансового прогнозирования, таких как предсказание вероятности возврата кредита, истечения срока действия лицензии и банкротства, демонстрирует повышение точности. В ходе тестирования методов TabLLM и ZET-LLM, использующих LLM для анализа структурированных данных, зафиксировано среднее увеличение площади под кривой Precision-Recall (PR-AUC) на 1.07x для предсказания возврата кредита, на 1.10x для прогнозирования истечения срока действия лицензии и на 1.37x для определения вероятности банкротства. Эти результаты указывают на способность LLM извлекать полезные закономерности из финансовых данных и улучшать показатели прогнозирования по сравнению с традиционными подходами.

Анализ SHAP показал, что наиболее важная характеристика для модели Qwen-2.5-7B при прогнозировании банкротства - это [название характеристики, отсутствующее на изображении]. — Анализ SHAP показал, что наиболее важная характеристика для модели Qwen-2.5-7B при прогнозировании банкротства — это [название характеристики, отсутствующее на изображении].

Постижение Логики LLM: Методы Объяснимого ИИ

В контексте финансовых приложений, интерпретируемость предсказаний больших языковых моделей (LLM) критически важна для обеспечения доверия и соответствия нормативным требованиям. Методы объяснимого искусственного интеллекта (XAI), в частности, значения SHAP (SHapley Additive exPlanations), позволяют количественно оценить вклад каждого входного признака в итоговое предсказание модели. Значения SHAP рассчитываются на основе теории игр Кунца и представляют собой средний предельный вклад признака во все возможные комбинации признаков, что обеспечивает справедливое и последовательное распределение важности признаков. Применение XAI в финансовой сфере позволяет не только понять, какие факторы влияют на решения модели (например, при оценке кредитного риска или прогнозировании рыночных трендов), но и выявить потенциальные смещения или ошибки в модели, обеспечивая более прозрачное и надежное принятие решений.

Для эффективной оценки вклада отдельных признаков в предсказания больших языковых моделей (LLM) используются методы, такие как PermutationExplainer и TokenSHAP. PermutationExplainer определяет важность признака путем измерения снижения производительности модели после случайного перемешивания значений этого признака. TokenSHAP, в свою очередь, адаптирует алгоритм SHAP (SHapley Additive exPlanations) для работы с токенами, входящими в состав входных данных LLM, позволяя количественно оценить влияние каждого токена на конечный результат. Оба метода позволяют присвоить каждому признаку (или токену) численное значение — SHAP value — отражающее его вклад в предсказание, что облегчает интерпретацию и анализ работы модели.

Визуализация зависимостей SHAP (SHAP dependence plots) позволяет установить взаимосвязь между значениями признаков и их вкладом в предсказание, оцениваемым с помощью SHAP-значений, что обеспечивает понимание логики принятия решений моделью. Однако, проведенное исследование выявило частичное расхождение между самообъяснениями, генерируемыми LLM, и оценкой влияния признаков на основе SHAP, демонстрируя степень согласования в пределах 50-57.2%. Это указывает на необходимость критической оценки самообъяснений LLM и подтверждения их достоверности с помощью методов XAI, таких как SHAP, для обеспечения прозрачности и надежности финансовых прогнозов.

Анализ SHAP показал, что наиболее важным признаком для модели Mistral-7B-v0.3 при прогнозировании банкротства является конкретный фактор, оказывающий наибольшее влияние на результат.

Гарантия Надежности: Калибровка и Оценка Производительности

Калибровка модели играет ключевую роль в обеспечении достоверности прогнозов финансовых событий. Суть калибровки заключается в том, чтобы гарантировать соответствие между предсказанными вероятностями и фактической частотой наступления событий. Например, если модель предсказывает вероятность банкротства компании на уровне 70%, то в долгосрочной перспективе примерно 7 из 10 компаний с подобным прогнозом действительно должны обанкротиться. Отсутствие калибровки приводит к неадекватной оценке рисков, искажению инвестиционных решений и потенциальным финансовым потерям. Поэтому, в контексте финансовых рынков, где точность прогнозов имеет решающее значение, калибровка модели является необходимым этапом перед ее практическим применением и внедрением в систему управления рисками.

Оценка производительности моделей, особенно в задачах финансовой оценки рисков, требует применения метрик, адаптированных к специфике данных. В частности, метрика PR-AUC (Precision-Recall Area Under the Curve) представляется особенно ценной при работе с несбалансированными наборами данных — ситуацией, типичной для финансовых приложений, где редкие события, такие как дефолты или мошеннические операции, представляют наибольший интерес. Традиционные метрики, такие как точность, могут давать обманчивые результаты в таких сценариях, поскольку модель может успешно предсказывать преобладающий класс, игнорируя при этом редкий, но критически важный. PR-AUC, напротив, фокусируется на способности модели выявлять положительные примеры, даже если их немного, что делает её более надежным индикатором реальной производительности в условиях дисбаланса классов и обеспечивает более точную оценку способности модели к прогнозированию ключевых финансовых событий.

Для повышения доверия к моделям финансового прогнозирования на базе больших языковых моделей (LLM) необходимо сочетать методы объяснимого искусственного интеллекта (XAI) с надежными метриками оценки. Такой подход способствует ответственному внедрению и широкому принятию этих моделей в финансовой сфере. Однако, получение интерпретируемых объяснений, например, с использованием метода SHAP, требует значительных вычислительных ресурсов. В ходе тестирования различных наборов данных и LLM, для генерации объяснений потребовалось выполнить приблизительно 1,32 миллиона оценок модели, что подчеркивает важность оптимизации этих процессов для практического применения.

Без точного определения задачи любое решение — шум. Данное исследование, посвященное оценке способности больших языковых моделей к классификации финансовых данных, подтверждает эту истину. Авторы справедливо подчеркивают ограниченную достоверность объяснений, предоставляемых этими моделями, что ставит под сомнение их надежность в критически важных финансовых приложениях. Отсутствие доказанной «верности» SHAP-значений, особенно в условиях zero-shot обучения, требует строгого аудита и математической чистоты алгоритмов перед их внедрением. Как говорил Джон фон Нейман: «В науке не бывает прощения за небрежность».

Куда Ведет Этот Путь?

Представленная работа, тщательно исследуя «честность» объяснений, генерируемых большими языковыми моделями при классификации финансовых данных, неизбежно указывает на фундаментальную проблему: уверенность в объяснении не эквивалентна истинности. Модели демонстрируют способность показывать логику, но гарантии ее корректности остаются эфемерными. Это напоминает о необходимости переосмысления самой концепции интерпретируемости — достаточно ли убедительного нарратива, или требуется доказательная связь между входными данными, процессом принятия решения и результатом?

Очевидно, что слепое доверие к «нулевому» обучению в критически важных областях, таких как финансы, недопустимо. Акцент должен сместиться с достижения высокой точности на тестах к разработке строгих метрик и методов аудита, способных выявлять скрытые смещения и логические ошибки. Эвристики, неизбежно присутствующие в сложных моделях, должны быть четко идентифицированы и оговорены, а не маскироваться под истинную интерпретируемость.

Будущие исследования должны сосредоточиться на разработке формальных методов верификации объяснений, возможно, используя инструменты из области формальной логики и теории доказательств. Поиск компромисса между сложностью модели и ее способностью к самоанализу представляется не просто технической задачей, но и философским вызовом — возможно ли создать «разумную» машину, способную объяснить свои действия не только убедительно, но и доказуемо правильно?

Оригинал статьи: https://arxiv.org/pdf/2512.00163.pdf

Связаться с автором: https://www.linkedin.com/in/avetisyan/

Смотрите также:

2025-12-02 16:03