Единое искажение – иной ответ: взлом логики мультимодальных моделей

Автор: Денис Аветисян


Исследователи показали, что достаточно одного, тщательно подобранного изменения изображения, чтобы заставить современные визуальные модели давать совершенно иные ответы.

"Покупай на слухах, продавай на новостях". А потом сиди с акциями никому не известной биотех-компании. Здесь мы про скучный, но рабочий фундаментал.

Бесплатный Телеграм канал
Злоумышленник, внедряя возмущение в визуальный поток, поступающий от камеры, способен перехватить цепь принятия решений мультимодальной большой языковой модели (MLLM), заставляя транспортное средство следовать заранее заданному маршруту на основе семантики измененного изображения.
Злоумышленник, внедряя возмущение в визуальный поток, поступающий от камеры, способен перехватить цепь принятия решений мультимодальной большой языковой модели (MLLM), заставляя транспортное средство следовать заранее заданному маршруту на основе семантики измененного изображения.

В статье демонстрируется возможность перехвата цепочки принятия решений в больших мультимодальных языковых моделях с помощью семантически осознаваемых универсальных искажений.

Несмотря на прогресс в области надежности нейронных сетей, уязвимость к последовательным ошибкам в принятии решений остается критической проблемой. В статье «On the Feasibility of Hijacking MLLMs’ Decision Chain via One Perturbation» представлен новый подход к атакам на визуальные мультимодальные большие языковые модели (MLLM), демонстрирующий возможность манипулирования всей цепочкой принятия решений посредством единственного, тщательно разработанного возмущения изображения. Показано, что однократное вмешательство позволяет добиться множественных, заранее определенных результатов, заставляя модель ошибочно классифицировать различные объекты в зависимости от семантики входного изображения. Не откроет ли это новые векторы атак и потребует ли разработки принципиально новых методов обеспечения безопасности для MLLM, функционирующих в реальном мире?


Тонкости Семантического Различия: Вызов для Машинного Обучения

Многие задачи машинного обучения сталкиваются с существенной проблемой — необходимостью чёткого разграничения концепций, имеющих тонкие семантические различия. Современные модели зачастую испытывают трудности в таких сценариях, поскольку традиционные алгоритмы склонны к обобщениям и не всегда способны уловить нюансы, определяющие принадлежность к конкретному классу. Эта сложность особенно актуальна при анализе естественного языка, где синонимы, метафоры и контекстуальные значения требуют от системы глубокого понимания смысла, а не просто сопоставления ключевых слов. Неспособность различать близкие понятия приводит к ошибкам в классификации, снижает точность прогнозов и ограничивает возможности применения машинного обучения в областях, требующих высокой степени детализации и интерпретации данных.

Традиционные функции потерь, используемые в машинном обучении, зачастую не способны эффективно разграничивать классы, что приводит к неоднозначности в прогнозах. Это связано с тем, что они ориентированы на минимизацию общей ошибки, а не на четкое разделение границ между похожими концепциями. В результате, модель может испытывать трудности с определением, к какому классу относится конкретный пример, особенно когда различия между классами незначительны. Такая неспособность к точному разграничению приводит к снижению надежности и точности предсказаний, а также может стать серьезной проблемой в приложениях, требующих высокой степени детализации и специфичности, например, при анализе тональности текста или классификации изображений с высокой степенью детализации.

Особая сложность возникает в задачах, требующих глубокого понимания семантики, например, при тонкой классификации текстов. Неопределенность в разграничении близких понятий может привести к ошибочной интерпретации нюансов, что критично для анализа настроений, определения тематики или выявления сарказма. В таких случаях, даже небольшая погрешность в понимании смысла может существенно исказить конечный результат, поскольку модели зачастую не способны уловить едва заметные различия в значении слов и фраз. Поэтому, развитие методов, позволяющих моделям различать семантические оттенки, является ключевым направлением в области обработки естественного языка и машинного обучения.

Анализ SAUP для Llava показал, что возмущения доминируют в извлеченных признаках изображений, разделяют их по семантике и обеспечивают высокую уверенность в правильности соответствующих целей.
Анализ SAUP для Llava показал, что возмущения доминируют в извлеченных признаках изображений, разделяют их по семантике и обеспечивают высокую уверенность в правильности соответствующих целей.

Оптимизация Семантического Разделения: Комбинированный Подход

Оптимизация семантического разделения (Semantic Separation Optimization) представляет собой методологию, направленную на повышение различимости между целевыми классами в моделях машинного обучения. Данный подход фокусируется на увеличении дистанции между представлениями различных классов в пространстве признаков, что способствует более четкой классификации и снижению вероятности ошибочной интерпретации. Реализация подразумевает модификацию функции потерь с целью явного стимулирования разделения классов, что позволяет модели более эффективно различать схожие объекты и повышает ее устойчивость к шумам и неполноте данных. Оптимизация семантического разделения применима к широкому спектру задач классификации и может быть интегрирована с различными архитектурами нейронных сетей.

Метод Semantic Separation Optimization использует преимущества как функции потерь Cross-Entropy, так и Margin Loss для достижения синергетического эффекта. Cross-Entropy Loss минимизирует ошибку предсказания, направляя модель к более точной классификации, в то время как Margin Loss увеличивает межклассовое разделение, обеспечивая большую устойчивость к незначительным изменениям входных данных. Комбинированное применение этих двух функций потерь позволяет модели одновременно повышать точность и надежность, что приводит к более четкому разделению между классами и улучшенной обобщающей способности. Математически, общая функция потерь представляет собой взвешенную сумму $L = \alpha L_{CE} + (1 — \alpha) L_{M}$, где $L_{CE}$ — Cross-Entropy Loss, $L_{M}$ — Margin Loss, а $\alpha$ — коэффициент, регулирующий вклад каждой функции потерь.

Оптимизация семантического разделения, сочетающая минимизацию ошибки предсказания и максимизацию межклассового разделения, способствует созданию более устойчивых и интерпретируемых моделей машинного обучения. Проведенные исследования показали, что данный подход позволяет нарушить цепочку принятия решений в визуальных мультимодальных больших языковых моделях (MLLM) всего одной незначительной модификацией входных данных. Этот факт представляет собой серьезную угрозу безопасности, поскольку указывает на уязвимость MLLM к целенаправленным атакам и требует разработки эффективных мер защиты для обеспечения надежности и предсказуемости работы этих моделей в критически важных приложениях.

Оптимизация SAUPs для Qwen с пятью целевыми параметрами показала, что отсутствие NSO препятствует снижению потерь, а исключение margin loss приводит к застреванию в локальных оптимумах.
Оптимизация SAUPs для Qwen с пятью целевыми параметрами показала, что отсутствие NSO препятствует снижению потерь, а исключение margin loss приводит к застреванию в локальных оптимумах.

Под Капотом: Перекрестная Энтропия и Margin Loss

Функция перекрестной энтропии ($Cross-Entropy Loss$) является стандартным методом минимизации расхождения между предсказанным распределением вероятностей и фактическим распределением, что способствует повышению точности классификации. В основе этого подхода лежит сравнение предсказанных вероятностей для каждого класса с истинной меткой класса. Минимизация перекрестной энтропии достигается путем корректировки параметров модели таким образом, чтобы предсказанные вероятности для правильного класса были максимально высокими, а для неправильных — минимальными. Математически, перекрестная энтропия определяется как отрицательная сумма произведений истинных вероятностей и логарифмов предсказанных вероятностей для каждого класса, обеспечивая количественную оценку различий между распределениями и направляя процесс обучения модели.

Функция Margin Loss, в отличие от Cross-Entropy Loss, явно направлена на увеличение разрыва между классами. Она работает путем применения штрафа к предсказаниям, которые находятся в пределах определенной границы (margin) между классами. Это способствует более четкому разделению классов в пространстве признаков, что, в свою очередь, улучшает способность модели различать их. В отличие от простого минимизирования ошибки классификации, Margin Loss активно поощряет модель выдавать предсказания с большей уверенностью и более четко отделять их от границ других классов, что повышает устойчивость к adversarial атакам и улучшает обобщающую способность.

Комбинация функций потерь Cross-Entropy и Margin Loss в рамках Semantic Separation Optimization формирует эффективный подход к обучению семантически богатых представлений. Экспериментальные результаты демонстрируют, что при использовании Qwen2.5-VL с двумя целевыми изображениями достигается уровень успешности атак (ASR) до 93%. При использовании модели Qwen с пятью целевыми изображениями ASR составляет 66%, а для InternVL3 с девятью целевыми изображениями — 48%. Данные показатели демонстрируют зависимость успешности атак от используемой модели и количества целевых изображений.

Метод SAUPs позволяет создавать возмущения, заставляющие многомодальные языковые модели (MLLM) генерировать заранее заданные предложения на основе семантического содержания входного изображения, используя обученные на изображениях из разных классов возмущения.
Метод SAUPs позволяет создавать возмущения, заставляющие многомодальные языковые модели (MLLM) генерировать заранее заданные предложения на основе семантического содержания входного изображения, используя обученные на изображениях из разных классов возмущения.

Исследование демонстрирует, что даже самые передовые визуальные мультимодальные большие языковые модели (MLLM) уязвимы к манипуляциям, основанным на семантическом понимании изображения. Авторы показали, что единственного, тщательно подобранного возмущения достаточно, чтобы перенаправить цепочку принятия решений моделью. Это подчеркивает важность анализа латентного пространства и разработки алгоритмов, устойчивых к подобным атакам. Как заметила Фэй-Фэй Ли: «Искусственный интеллект должен расширять возможности человека, а не заменять его». Данное исследование не только выявляет уязвимости, но и призывает к созданию более надежных и предсказуемых систем, где контроль над процессом принятия решений остается у человека, а не у подверженной манипуляциям модели.

Куда Ведет Этот Путь?

Представленная работа, демонстрируя возможность перехвата цепочки принятия решений у визуальных мультимодальных больших языковых моделей посредством единственного, тщательно выверенного возмущения, обнажает фундаментальную слабость — зависимость от семантического контекста. Недостаточно просто «заставить» модель ошибаться; теперь известно, как направить эту ошибку в заранее определенное русло. И это не вопрос улучшения точности классификации, а вопрос доказательства корректности самого процесса принятия решения. Интуиция подсказывает, что «случайные» возмущения должны быть неэффективны, однако, доказательство этого — задача, пока не решенная.

В дальнейшем, необходимо сместить фокус с «робастности» как таковой, на формальную верификацию. Достаточно ли просто увеличить размер обучающей выборки, или требуется разработка новых архитектур, где логические связи между входными данными и выходными результатами будут явно выражены и доказуемы? Анализ латентного пространства, безусловно, важен, но он лишь описывает как модель ошибается, не объясняя почему. Необходимо построение формальных моделей, способных предсказывать уязвимости до их эксплуатации.

Иронично, но стремление к созданию «умных» систем приводит к усложнению и, как следствие, к появлению новых, непредсказуемых уязвимостей. Истинная элегантность — в простоте и доказуемости, а не в количестве параметров. Следующим шагом должно стать не создание более сложных моделей, а разработка математически строгих методов их анализа и верификации.


Оригинал статьи: https://arxiv.org/pdf/2511.20002.pdf

Связаться с автором: https://www.linkedin.com/in/avetisyan/

Смотрите также:

2025-11-27 01:23