Скрытые угрозы в цепочках AI-агентов: как обнаружить «лазейки» в поведении

При обнаружении сгенерированного текста другими большими языковыми моделями, точность достигает в среднем 92.7% при использовании той же модели, но падает до 49.2% - уровня случайного угадывания - при попытке обнаружения текста, сгенерированного другой моделью.

Новое исследование выявляет существенные различия в обнаружении поведенческих бэкдоров между разными большими языковыми моделями и предлагает эффективный подход к решению этой проблемы.

Единое искажение – иной ответ: взлом логики мультимодальных моделей

Злоумышленник, внедряя возмущение в визуальный поток, поступающий от камеры, способен перехватить цепь принятия решений мультимодальной большой языковой модели (MLLM), заставляя транспортное средство следовать заранее заданному маршруту на основе семантики измененного изображения.

Исследователи показали, что достаточно одного, тщательно подобранного изменения изображения, чтобы заставить современные визуальные модели давать совершенно иные ответы.