Взлом и защита языковых моделей: как понять и контролировать поведение ИИ

В новой статье представлен комплексный подход к анализу причинно-следственных связей, позволяющий выявлять уязвимости и повышать безопасность больших языковых моделей.

В новой статье представлен комплексный подход к анализу причинно-следственных связей, позволяющий выявлять уязвимости и повышать безопасность больших языковых моделей.

Новое исследование показывает, что при автоматической генерации кода открытыми языковыми моделями часто возникают серьезные архитектурные проблемы, приводящие к снижению качества и надежности программного обеспечения.

Новое исследование показывает, что сочетание текстовой дезинформации и изображений, созданных искусственным интеллектом, значительно ускоряет и расширяет вирусное распространение контента в социальной сети Reddit.
Новый подход позволяет значительно повысить точность прогнозов, обучая большие языковые модели на основе семантических знаний о данных.

Новое исследование показывает, что системы искусственного интеллекта, обрабатывающие изображения и текст, уязвимы к незаметным манипуляциям с помощью изменения масштаба изображений.