Скрытые угрозы в цепочках AI-агентов: как обнаружить «лазейки» в поведении

Новое исследование выявляет существенные различия в обнаружении поведенческих бэкдоров между разными большими языковыми моделями и предлагает эффективный подход к решению этой проблемы.


