Геометрические пути объяснений: Новый взгляд на ценности Шепли

Автор: Денис Аветисян


В статье представлена инновационная методика интерпретации решений искусственного интеллекта, основанная на оптимальном транспорте и сопоставлении потоков, позволяющая строить более стабильные и достоверные объяснения.

"Покупай на слухах, продавай на новостях". А потом сиди с акциями никому не известной биотех-компании. Здесь мы про скучный, но рабочий фундаментал.

Бесплатный Телеграм канал
Предложенный подход вычисляет аксиоматическое объяснение Ψ путём интегрирования градиента модели [latex]\nabla\_{x}f\_{c}[/latex] вдоль геометрически оптимального пути оптимального транспорта [latex]\gamma^{\*}[/latex], остающегося на многообразии данных при переходе от эталонного распределения [latex]p_0[/latex] к данным, обеспечивая стабильные и принципиальные объяснения целевого логита [latex]f_c[/latex].
Предложенный подход вычисляет аксиоматическое объяснение Ψ путём интегрирования градиента модели \nabla\_{x}f\_{c} вдоль геометрически оптимального пути оптимального транспорта \gamma^{\*}, остающегося на многообразии данных при переходе от эталонного распределения p_0 к данным, обеспечивая стабильные и принципиальные объяснения целевого логита f_c.

Исследование предлагает новый фреймворк для вычисления ценностей Шепли на многообразиях с использованием оптимальных генеративных потоков.

Несмотря на широкое применение методов атрибуции, основанных на значениях Шапли, их подверженность артефактам, возникающим вне многообразия данных, ограничивает интерпретируемость моделей машинного обучения. В работе ‘Axiomatic On-Manifold Shapley via Optimal Generative Flows’ предложен формальный подход к построению атрибуций Шапли на многообразии, основанный на оптимальных генеративных потоках и теории оптимального транспорта. Доказана теорема о представлении, устанавливающая уникальность функционала, удовлетворяющего аксиомам эффективности и геометрической инвариантности, а также показана возможность получения устойчивых оценок погрешности аппроксимации потока. Способен ли предложенный подход к атрибуции Шапли, основанный на геометрически согласованных путях, обеспечить более надежную и осмысленную интерпретацию сложных моделей искусственного интеллекта?


Трудности интерпретации: за пределами простой важности признаков

Интерпретация моделей машинного обучения приобретает все большее значение в контексте их широкого применения, однако традиционные методы атрибуции признаков часто оказываются недостаточными в сложных сценариях. Ограничения возникают из-за нелинейности современных алгоритмов и взаимодействия между признаками, что приводит к неточным или вводящим в заблуждение объяснениям. Простые подходы, такие как определение важности признаков на основе их вклада в общую предсказующую способность, могут игнорировать сложные зависимости и скрытые взаимосвязи. В результате, понимание того, почему модель принимает определенное решение, становится затруднительным, что снижает доверие к ней и препятствует эффективному использованию в критически важных областях, где прозрачность и обоснованность необходимы.

Несмотря на свою теоретическую обоснованность, методы, такие как значения Шапли, демонстрируют чувствительность к выбору базовой линии — начальной точки для сравнения влияния признаков. Различные базовые линии могут приводить к существенно отличающимся результатам атрибуции, что затрудняет объективную оценку важности признаков. Более того, вычисление значений Шапли требует анализа всех возможных комбинаций признаков, что делает этот процесс чрезвычайно ресурсоемким и вычислительно сложным, особенно при увеличении числа признаков. В результате, применение значений Шапли к масштабным наборам данных может оказаться практически невозможным из-за экспоненциального роста вычислительных затрат, что ограничивает их практическую применимость в реальных задачах машинного обучения.

Существующие методы пост-хок объяснения моделей машинного обучения зачастую страдают от недостатка прочной геометрической основы, что существенно ограничивает их надежность и способность к обобщению. Вместо анализа взаимодействия между признаками в многомерном пространстве признаков, многие подходы рассматривают их изолированно или полагаются на приближенные оценки. Это приводит к неточным или вводящим в заблуждение интерпретациям, особенно в случаях, когда признаки сильно коррелированы или когда модель демонстрирует нелинейное поведение. Отсутствие геометрической интерпретации также затрудняет сравнение различных методов объяснения и оценку их достоверности, поскольку не существует общепринятых метрик для измерения “геометрической согласованности” объяснений с поведением модели. В результате, интерпретации могут быть чувствительны к незначительным изменениям в данных или архитектуре модели, что снижает доверие к ним и ограничивает их применимость в критически важных областях.

Метод Reflowed Shapley (2-RF) обеспечивает стабильные и структурированные объяснения, минимизируя кинетическую энергию траектории генерации и, как следствие, снижая стохастическую нестабильность в атрибуциях, что подтверждается низкой кинетической энергией и высокой структурной согласованностью (SSIM) на графике зависимости транспортных затрат от структурного сходства.
Метод Reflowed Shapley (2-RF) обеспечивает стабильные и структурированные объяснения, минимизируя кинетическую энергию траектории генерации и, как следствие, снижая стохастическую нестабильность в атрибуциях, что подтверждается низкой кинетической энергией и высокой структурной согласованностью (SSIM) на графике зависимости транспортных затрат от структурного сходства.

Оптимальная транспортировка: геометрическая основа для атрибуции

Оптимальная транспортировка (OT) предоставляет обоснованный метод измерения расстояния между вероятностными распределениями, используя так называемое расстояние Вассерштейна, также известное как расстояние Землекопа W_p. В отличие от других метрик, таких как L_1 или L_2, расстояние Вассерштейна учитывает «стоимость» перемещения массы между распределениями. Оно определяется как минимальная «работа», необходимая для преобразования одного распределения в другое, где «работа» измеряется как интеграл по «стоимости» перемещения единицы массы. Это делает расстояние Вассерштейна особенно полезным в задачах, где важна геометрия распределений и «форма» данных, поскольку оно более чувствительно к изменениям в плотности вероятности, чем простое сравнение значений.

Формулировка Бенаму-Бренье оптимального транспорта представляет задачу как минимизацию функционала кинетической энергии. В рамках данной формулировки, транспортная задача сводится к нахождению плана перемещения массы, минимизирующего интеграл \in t v(x)^2 d\mu(x) , где v(x) — скорость перемещения массы, а \mu(x) — плотность вероятности. Это позволяет рассматривать оптимальный транспорт не как статическое сопоставление, а как динамический процесс эволюции одного распределения вероятностей в другое, что обеспечивает более гибкий и эффективный подход к решению задач, связанных с измерением расстояний между распределениями и их применением в различных областях, включая машинное обучение и анализ данных.

Рассматривая задачу атрибуции как задачу оптимального транспорта (OT), становится возможным определить осмысленные пути между распределениями, представляющими поведение модели. В данном контексте, каждое распределение отражает вероятностную оценку выхода модели для определенного входного сигнала или набора сигналов. Путь между двумя распределениями, рассчитанный с помощью алгоритмов OT, представляет собой минимальную «стоимость» перемещения вероятностной массы из одного распределения в другое. Эта «стоимость» может быть определена различными метриками, например, L_p-метрикой, и позволяет количественно оценить изменение в поведении модели при изменении входных данных. Такой подход позволяет не только выявить наиболее значимые входные признаки, влияющие на выход модели, но и визуализировать и анализировать сложные взаимосвязи между входом и выходом, что делает его ценным инструментом для интерпретируемости моделей машинного обучения.

Анализ высокоразмерного пространства (d=10) показывает, что расхождение атрибуции плавно изменяется в зависимости от согласованности поля, а сохранение структуры соседства, оцениваемое перекрытием [latex]kkNN[/latex] (k=10), в целом поддерживается всеми методами, что подтверждает масштабируемость 1-RF как приближения и возможность использования reflow для повышения точности, приближающейся к OT.
Анализ высокоразмерного пространства (d=10) показывает, что расхождение атрибуции плавно изменяется в зависимости от согласованности поля, а сохранение структуры соседства, оцениваемое перекрытием kkNN (k=10), в целом поддерживается всеми методами, что подтверждает масштабируемость 1-RF как приближения и возможность использования reflow для повышения точности, приближающейся к OT.

Геодезические потоки: построение путей атрибуции

Геодезический поток использует оптимальный транспорт (OT) для определения путей атрибуции как геодезических — кратчайших путей — в пространстве Вассерштейна. В контексте атрибуции, пространство Вассерштейна позволяет рассматривать распределения вероятностей как точки, а расстояние Вассерштейна измеряет «стоимость» перемещения одного распределения в другое. Геодезическая, таким образом, представляет собой наиболее экономичный путь трансформации исходного распределения (например, распределения действий пользователя) в конечное распределение (например, конверсию). Использование геодезических позволяет формально определить и вычислить вклад каждого шага в этом преобразовании, обеспечивая более точную и интерпретируемую атрибуцию, чем традиционные эвристические подходы. W(P,Q) обозначает расстояние Вассерштейна между распределениями P и Q.

Методы Flow Matching и Rectified Flow представляют собой эффективные подходы к аппроксимации геодезических в пространстве Вассерштейна, что позволяет масштабировать задачу атрибуции. Flow Matching обучается предсказывать векторное поле, направляющее точки данных вдоль геодезических, а Rectified Flow корректирует это поле для улучшения точности и стабильности. Оба метода используют обучение с учителем для оценки геодезических, что значительно снижает вычислительные затраты по сравнению с прямым решением оптимальной транспортной задачи. Это позволяет применять геодезические потоки для атрибуции в задачах, где объем данных или сложность модели делают точные вычисления недоступными, обеспечивая компромисс между точностью и вычислительной эффективностью.

Применение значений Аумана-Шепли в рамках геодезических потоков позволяет рассчитать вклад каждого элемента данных вдоль геодезической кривой, определяющей путь атрибуции. В отличие от дискретных методов, таких как Shapley values, использующих комбинаторный анализ, значения Аумана-Шепли предоставляют непрерывное распределение атрибуции. Это достигается путем интегрирования вклада каждого элемента вдоль пути, что особенно важно при работе с непрерывными данными или сложными моделями, где дискретизация может привести к потере информации. \phi_i(x) представляет собой вклад элемента i в точку x на геодезической кривой, а интеграл от \phi_i(x) по всей кривой дает общую атрибуцию элемента i . Такой подход обеспечивает более детальное и точное понимание влияния каждого элемента на конечный результат.

Сравнительный анализ траекторий и эволюции плотности в упрощенной задаче Гаусса показывает, что одношаговый алгоритм Reflow (1-RF) генерирует более изогнутые пути, в то время как итеративные алгоритмы Reflow (2-RF/3-RF) значительно выпрямляют траектории, приближаясь к оптимальному решению, полученному с помощью оракула оптимального транспорта.
Сравнительный анализ траекторий и эволюции плотности в упрощенной задаче Гаусса показывает, что одношаговый алгоритм Reflow (1-RF) генерирует более изогнутые пути, в то время как итеративные алгоритмы Reflow (2-RF/3-RF) значительно выпрямляют траектории, приближаясь к оптимальному решению, полученному с помощью оракула оптимального транспорта.

Обеспечение надежности и достоверности атрибуций

Поддержание согласованности многообразия имеет решающее значение для обеспечения реалистичности путей атрибуции и предотвращения ложных результатов. В контексте объяснимого искусственного интеллекта, многообразие отражает внутреннюю структуру данных и взаимосвязи между признаками. Когда процесс атрибуции игнорирует эту структуру, он может выдавать объяснения, которые не соответствуют реальному поведению модели и вводят в заблуждение. Согласованность многообразия гарантирует, что атрибуции следуют естественным путям влияния признаков, основываясь на геометрических свойствах пространства данных, что повышает надежность и интерпретируемость объяснений модели. Отклонение от этой согласованности приводит к появлению нереалистичных атрибуций, которые могут быть случайными или зависеть от незначительных изменений во входных данных.

Предлагаемый подход представляет собой более устойчивую и понятную альтернативу традиционным методам, основанным на значениях Шапли. В отличие от последних, которые могут демонстрировать значительные колебания при незначительных изменениях входных данных, данная система обеспечивает стабильность объяснений, что особенно важно для критически важных приложений. Более того, геометрическое обоснование, лежащее в основе фреймворка, способствует лучшей интерпретируемости результатов, позволяя исследователям и специалистам более четко понимать, какие факторы оказывают наибольшее влияние на прогнозы модели. Это позволяет не только повысить доверие к объяснениям, но и упростить процесс отладки и улучшения моделей машинного обучения.

В основе повышения надежности и обобщающей способности объяснений моделей машинного обучения лежит переход к геометрическим принципам атрибуции. Исследования показали, что применение методов, основанных на геометрических свойствах, позволяет значительно снизить нестабильность объяснений, измеряемую как «Кинетическое Действие» (Kinetic Action). В частности, использование техник «перетекания» (reflow techniques) позволило добиться снижения этого показателя на два порядка величины — с 0.2205 до 0.002. Такое существенное уменьшение свидетельствует о значительном повышении устойчивости и интерпретируемости результатов атрибуции, что делает предложенный подход более предпочтительным по сравнению с традиционными методами, основанными на значениях Шапли.

Валидация на синтетической аддитивной модели подтверждает высокую точность оценки влияния факторов (Shapley values) с использованием интегрального подхода с квадратурой середины, демонстрируя соответствие теоретической скорости сходимости [latex]O(K^{-2})[/latex] и незначительное смещение остатков при увеличении числа шагов [latex]K[/latex], что подтверждается почти идеальным совпадением оценок при различных значениях [latex]K[/latex].
Валидация на синтетической аддитивной модели подтверждает высокую точность оценки влияния факторов (Shapley values) с использованием интегрального подхода с квадратурой середины, демонстрируя соответствие теоретической скорости сходимости O(K^{-2}) и незначительное смещение остатков при увеличении числа шагов K, что подтверждается почти идеальным совпадением оценок при различных значениях K.

Наблюдатель видит, как элегантные построения авторов стремятся обуздать хаос интерпретируемости в моделях искусственного интеллекта. Подход, основанный на оптимальном транспорте и сопоставлении потоков, призван создать геометрически согласованные пути атрибуции — попытка придать стабильность и достоверность объяснениям. Но, как гласит мудрая мысль Дональда Дэвиса: «Любая абстракция умирает от продакшена». И действительно, даже самые изящные математические модели, стремящиеся к идеальной интерпретируемости, рано или поздно столкнутся с суровой реальностью практического применения, где данные не всегда соответствуют теоретическим предположениям. Тем не менее, красота в попытке, даже если она обречена на кратковременность.

Что дальше?

Представленный подход, хоть и элегантен в своей геометрической строгости, не решает фундаментальной проблемы: любая попытка упростить объяснение сложной модели неизбежно добавляет новый слой абстракции. По сути, это лишь перенос непрозрачности — от весов нейронной сети к параметрам оптимального транспорта. В конечном итоге, всегда найдётся способ сломать даже самую изящную теорию, и производственная среда обязательно этим воспользуется.

Перспективы развития, вероятно, лежат в области устойчивости к возмущениям. Необходимо исследовать, насколько эти «геометрически согласованные пути атрибуции» сохраняют свою осмысленность при малейших изменениях входных данных или архитектуры модели. Иначе, это всего лишь ещё одна красивая метрика, обречённая на скорую деградацию в реальных условиях. Документация, конечно, останется мифом, созданным менеджерами, но хотя бы можно будет сослаться на новые способы, которыми всё сломается.

В конечном счёте, следует признать, что объяснимый искусственный интеллект — это, возможно, недостижимая утопия. Наша CI — это храм, в котором мы молимся, чтобы ничего не сломалось, а не место, где мы действительно понимаем, что происходит. И каждое новое «революционное» решение станет очередным техдолгом, который придётся выплачивать в будущем.


Оригинал статьи: https://arxiv.org/pdf/2603.05093.pdf

Связаться с автором: https://www.linkedin.com/in/avetisyan/

Смотрите также:

2026-03-09 02:33