Искусственный интеллект против фишинга: слабые места и уязвимости

Автор: Денис Аветисян


Новое исследование демонстрирует, что, несмотря на высокую точность в обнаружении фишинговых писем, современные языковые модели подвержены сложным атакам и манипуляциям.

"Покупай на слухах, продавай на новостях". А потом сиди с акциями никому не известной биотех-компании. Здесь мы про скучный, но рабочий фундаментал.

Бесплатный Телеграм канал
Обзор LLM-PEA демонстрирует интеграцию больших языковых моделей для улучшения процесса оценки, предлагая комплексный подход к анализу и оптимизации.
Обзор LLM-PEA демонстрирует интеграцию больших языковых моделей для улучшения процесса оценки, предлагая комплексный подход к анализу и оптимизации.

Представлена платформа LLM-PEA для оценки устойчивости больших языковых моделей к фишингу, включая атаки с использованием уязвимостей в обработке многоязычного контента и внедрении вредоносных команд.

Несмотря на растущую роль больших языковых моделей (LLM) в обеспечении кибербезопасности, они остаются уязвимыми к новым видам атак. В данной работе, ‘LLM-PEA: Leveraging Large Language Models Against Phishing Email Attacks’, предложен фреймворк LLM-PEA, демонстрирующий высокую точность обнаружения фишинговых писем, но и выявляющий потенциальные уязвимости к многовекторным атакам, включая инъекции запросов и полиглотизм. Полученные результаты показывают, что LLM могут достигать более 90% точности в обнаружении фишинга, однако требуют серьезной защиты от сложных атак, использующих комбинацию различных уязвимостей. Какие дополнительные меры необходимы для обеспечения надежной защиты LLM-систем от постоянно эволюционирующих угроз фишинга?


Угроза эволюционирует: уязвимости больших языковых моделей

Фишинговые атаки по электронной почте продолжают оставаться серьезной угрозой в сфере кибербезопасности, демонстрируя постоянную эволюцию методов обхода существующих систем защиты. Злоумышленники всё чаще используют сложные приёмы, включая персонализированные сообщения и манипуляции с языком, чтобы обмануть пользователей и получить доступ к конфиденциальной информации. Традиционные фильтры и антивирусные программы зачастую оказываются неэффективными против этих атак, поскольку они направлены не на обнаружение известных сигнатур, а на эксплуатацию человеческой психологии и доверия. Адаптация к меняющимся тактикам фишинга требует от специалистов по кибербезопасности постоянного совершенствования методов анализа и разработки новых стратегий защиты, способных распознавать даже самые изощренные схемы обмана.

Несмотря на многообещающие перспективы применения больших языковых моделей (БЯМ) в сфере кибербезопасности, они оказываются уязвимы к сложным атакам, использующим их собственные возможности. Злоумышленники разрабатывают изощренные методы, эксплуатирующие способность БЯМ к генерации текста, чтобы обмануть системы защиты или создать убедительные фишинговые сообщения. Вместо прямого взлома, атаки направлены на манипулирование моделями, заставляя их выполнять нежелательные действия или выдавать ложную информацию. Эта особенность делает традиционные методы обнаружения, основанные на сигнатурах или аномалиях, менее эффективными, поскольку атаки часто маскируются под легитимный контент, что требует разработки новых, более интеллектуальных подходов к защите.

Традиционные методы кибербезопасности демонстрируют свою неэффективность перед лицом всё более изощрённых атак, сохраняющих смысл исходного сообщения. Несмотря на то, что современные системы способны с высокой точностью — до 95% — выявлять первоначальные признаки вредоносной активности, злоумышленники адаптируют свои стратегии, используя сложные лингвистические приёмы для обхода защитных механизмов. Эти атаки, сохраняя семантическую целостность, успешно маскируются под легитимный трафик, что затрудняет их обнаружение стандартными алгоритмами анализа и требует разработки принципиально новых подходов к защите информационных систем.

Адверсативные преобразования снижают точность обнаружения фишинговых писем.
Адверсативные преобразования снижают точность обнаружения фишинговых писем.

LLM-PEA: платформа для оценки устойчивости моделей

Предлагаемый нами фреймворк LLM-PEA представляет собой комплексную систему оценки устойчивости больших языковых моделей (LLM) к фишинговым атакам, осуществляемым через электронную почту. Данная система позволяет проводить всесторонний анализ способности моделей распознавать и отклонять вредоносные письма, имитирующие легитимные сообщения. LLM-PEA включает в себя набор инструментов и методик, предназначенных для выявления уязвимостей, которые могут быть использованы злоумышленниками для обмана пользователей или получения несанкционированного доступа к данным. Фреймворк охватывает различные аспекты безопасности, включая анализ содержимого письма, заголовков и метаданных, а также оценку реакции модели на различные типы фишинговых техник.

В рамках LLM-PEA для оценки устойчивости больших языковых моделей (LLM) к фишинговым атакам используются различные методы промптинга. Техника Zero-Shot предполагает оценку модели без предварительного обучения на конкретных примерах, что позволяет проверить её способность к обобщению. Structured prompting подразумевает использование чётко структурированных запросов, направленных на получение конкретных ответов. Метод Chain-of-Thought (CoT) стимулирует модель к последовательному рассуждению, раскрывая логику её ответов и выявляя потенциальные уязвимости. Комбинирование этих подходов позволяет всесторонне оценить производительность LLM в различных условиях и выявить её слабые места в контексте атак.

В отличие от стандартных метрик точности, предложенная нами платформа LLM-PEA направлена на выявление уязвимостей больших языковых моделей (LLM) к семантически-сохраняющим атакам и инъекциям промптов. Проведенная оценка показала, что успешность таких атак варьируется от 10% до 40% в зависимости от конкретной модели, что указывает на существенный риск эксплуатации даже при незначительных изменениях входных данных, не влияющих на общий смысл запроса. Это подчеркивает необходимость более глубокого анализа устойчивости LLM к злонамеренным манипуляциям с промптами.

Конструирование набора данных и моделирование атак

Для проведения экспериментов использовался набор данных Phishing Email Detection Dataset, включающий в себя три конфигурации: сбалансированную (Balanced), несбалансированную (Imbalanced) и состязательную (Adversarial). Сбалансированная конфигурация обеспечивает равное количество легитимных и фишинговых писем, что полезно для базовой оценки производительности. Несбалансированная конфигурация отражает реальное распределение данных, где фишинговые письма встречаются значительно реже. Состязательная конфигурация содержит специально модифицированные фишинговые письма, предназначенные для обхода стандартных методов обнаружения, что позволяет оценить устойчивость моделей к продвинутым атакам и смоделировать более реалистичные сценарии угроз.

Для прямой оценки уязвимости моделей к злонамеренным манипуляциям инструкциями был создан специализированный набор данных для атак типа Prompt Injection. Этот набор данных содержит тщательно разработанные запросы, направленные на обход встроенных механизмов безопасности и заставление модели выполнять нежелательные действия или раскрывать конфиденциальную информацию. Набор данных включает в себя разнообразные техники внедрения инструкций, такие как внедрение скрытых команд, использование неоднозначных формулировок и эксплуатация уязвимостей в процессе обработки естественного языка. Целью создания данного набора данных является количественная оценка эффективности различных моделей в противодействии атакам Prompt Injection и выявление слабых мест в их архитектуре.

Для оценки производительности моделей в условиях многоязычности использовался специализированный многоязычный набор данных, позволивший выявить уязвимости к атакам, использующим межъязыковую обфускацию. Эксперименты показали значительное снижение эффективности в многоязычной среде: у модели Claude Sonnet 4 зафиксирован уровень ложноположительных срабатываний в 30.6% для языка бенгальский, а у Grok-3 — 44.1% для бенгальского и 44.7% для китайского. Данные результаты демонстрируют, что модели подвержены ошибкам при обработке запросов на неанглийских языках, что потенциально может быть использовано злоумышленниками для обхода систем защиты.

Наблюдается последовательное ухудшение частоты ложных срабатываний во всех языках, при этом бенгальский язык является наиболее уязвимым.
Наблюдается последовательное ухудшение частоты ложных срабатываний во всех языках, при этом бенгальский язык является наиболее уязвимым.

Анализ результатов и ключевые выводы

Оценка моделей, таких как GPT-4o, Claude Sonnet 4 и Grok-3, в рамках разработанной LLM-PEA (Large Language Model Phishing Email Analysis) показала существенные различия в их устойчивости к фишинговым атакам. Исследование выявило, что, несмотря на впечатляющую общую производительность, каждая модель демонстрирует различную степень восприимчивости к тщательно сконструированным вредоносным сообщениям. В то время как некоторые модели демонстрируют высокую точность в стандартных сценариях, они оказываются уязвимыми к техникам уклонения, таким как модификация входных данных и внедрение вредоносных команд. Данный анализ подчеркивает необходимость дальнейших исследований и разработки более надежных механизмов защиты, способных эффективно противостоять постоянно эволюционирующим угрозам в сфере кибербезопасности.

Несмотря на достижение до 95% точности в определенных сценариях, современные языковые модели демонстрируют уязвимость к тщательно разработанным состязательным примерам и техникам внедрения запросов. Исследование выявило, что успешность атак посредством состязательной доработки составляет 4,2% для GPT-4o, 12,7% для Claude Sonnet 4 и 0% для Grok-3. Аналогично, при использовании внедрения запросов, атаки оказались успешными в 1,3% случаев для Claude Sonnet 4, 4,2% для GPT-4o и 12,3% для Grok-3. Эти результаты подчеркивают, что высокая общая точность не гарантирует устойчивость к целенаправленным атакам, направленным на обход механизмов защиты и манипулирование поведением модели.

Высокий уровень ложноположительных срабатываний остается серьезной проблемой в контексте автоматического обнаружения фишинговых писем. Исследования показывают, что системы, несмотря на прогресс в определении вредоносных сообщений, склонны ошибочно маркировать легитимные электронные письма как подозрительные. Это приводит к неудобствам для пользователей, задерживает важную корреспонденцию и подрывает доверие к системам защиты. Необходима дальнейшая работа над повышением точности алгоритмов, чтобы минимизировать количество ошибочных срабатываний и обеспечить надежную защиту от фишинга без излишних помех для нормальной коммуникации.

Оценка F1 демонстрирует превосходство подхода zero-shot (среднее значение 0.793) над структурированными подсказками (0.657), при этом CoT обеспечивает наивысший индивидуальный результат (Claude: 0.865), но характеризуется наибольшей вариативностью между моделями (σ = 0.099).
Оценка F1 демонстрирует превосходство подхода zero-shot (среднее значение 0.793) над структурированными подсказками (0.657), при этом CoT обеспечивает наивысший индивидуальный результат (Claude: 0.865), но характеризуется наибольшей вариативностью между моделями (σ = 0.099).

Исследование, представленное в данной работе, подчеркивает уязвимость больших языковых моделей к изощренным атакам, несмотря на их высокую точность в обнаружении фишинговых писем. Это подтверждает идею о том, что сложность системы не всегда гарантирует её надежность. Как заметил Г.Х. Харди: «Чистая математика — это не тело знаний, а способ мышления». В контексте LLM-PEA, это означает, что совершенство модели определяется не объемом ее параметров, а глубиной понимания принципов, лежащих в основе её работы и её устойчивости к манипуляциям. Простота и ясность в архитектуре и подходах к оценке уязвимостей представляются более ценными, чем избыточное усложнение.

Что дальше?

Представленная работа демонстрирует, что высокая точность больших языковых моделей в обнаружении фишинговых писем — это, скорее, иллюзия безопасности, нежели реальное достижение. Уязвимость к тщательно разработанным атакам, использующим манипуляции с запросами и лингвистические особенности, обнажает хрупкость кажущейся надежности. Проблема не в отсутствии алгоритма, а в избыточности самонадеянности.

Дальнейшие исследования должны сосредоточиться не на увеличении размера моделей, а на углублении понимания механизмов их обмана. Особенно актуально изучение устойчивости к многоязычным атакам, поскольку глобальный характер киберугроз требует универсальных решений. Простое увеличение объема обучающих данных — не выход; необходим поиск принципиально новых методов обеспечения надежности.

В конечном счете, истинный прогресс заключается не в создании более сложных систем, а в признании их неизбежной ограниченности. Иногда самое мудрое решение — это смирение перед сложностью, а не попытка ее покорить.


Оригинал статьи: https://arxiv.org/pdf/2512.10104.pdf

Связаться с автором: https://www.linkedin.com/in/avetisyan/

Смотрите также:

2025-12-14 09:06