Как нейросети распознают фишинговые сайты?

Автор: Денис Аветисян

Новое исследование показывает, как современные языковые модели могут эффективно выявлять мошеннические ресурсы и защищать пользователей от онлайн-угроз.

"Покупай на слухах, продавай на новостях". А потом сиди с акциями никому не известной биотех-компании. Здесь мы про скучный, но рабочий фундаментал.

Бесплатный Телеграм канал

Экспериментальная оценка демонстрирует всесторонний подход к анализу производительности системы, охватывающий ключевые аспекты и обеспечивающий целостное понимание её функциональности.

Комплексная оценка эффективности моделей на основе больших языковых моделей (LLM) в задачах обнаружения фишинга и идентификации бренда.

Несмотря на растущую распространенность фишинговых атак, традиционные методы их обнаружения часто оказываются неэффективными из-за недостаточной обобщающей способности и отсутствия интерпретируемости. Настоящее исследование, озаглавленное ‘How Can We Effectively Use LLMs for Phishing Detection?: Evaluating the Effectiveness of Large Language Model-based Phishing Detection Models’, посвящено всесторонней оценке возможностей больших языковых моделей (LLM) в контексте обнаружения фишинга и идентификации целевых брендов. Полученные результаты демонстрируют, что LLM превосходят традиционные алгоритмы глубокого обучения, а использование скриншотов в сочетании с низкими значениями температуры обеспечивает максимальную точность. Какие перспективы открываются для дальнейшего повышения эффективности LLM в борьбе с постоянно эволюционирующими угрозами кибербезопасности?

Эволюция Угроз: Понимание Современного Фишинга

Фишинговые атаки, представляющие собой одну из наиболее распространенных киберугроз, непрерывно эволюционируют, адаптируясь к новым технологиям и уязвимостям. Современные злоумышленники используют все более изощренные методы социальной инженерии, имитируя легитимные организации и сервисы с высокой степенью реалистичности. Это касается не только электронных писем, но и SMS-сообщений, социальных сетей и даже голосовых звонков. В результате, как отдельные пользователи, так и крупные организации оказываются под постоянной угрозой кражи конфиденциальной информации, финансовых потерь и репутационного ущерба. Постоянное совершенствование тактик злоумышленников требует от специалистов в области кибербезопасности непрерывного мониторинга и разработки новых методов защиты, а от пользователей – повышенной бдительности и критического мышления при обработке входящей информации.

Современные методы обнаружения фишинговых атак сталкиваются со значительными трудностями, поскольку злоумышленники постоянно совершенствуют свои тактики. Традиционные подходы, основанные на анализе черных списков и сигнатур, оказываются неэффективными против полиморфных угроз, использующих динамически изменяющийся код и маскировку под легитимные источники. Адаптивные фишинговые кампании, применяющие методы социальной инженерии и персонализированные сообщения, способны обходить фильтры спама и вводить пользователей в заблуждение. В частности, использование HTTPS и подделка доменных имен, визуально неотличимых от оригинальных, усложняют автоматическое обнаружение. В связи с этим, необходимы инновационные решения, основанные на машинном обучении и анализе поведения, для выявления аномалий и предсказания новых угроз, опережая эволюцию фишинговых атак.

Своевременное и точное выявление фишинговых атак имеет решающее значение для предотвращения утечек данных и финансовых потерь. Современные фишинговые кампании становятся все более изощренными, успешно обходя традиционные методы защиты. Задержка в обнаружении даже на несколько часов может привести к компрометации конфиденциальной информации, включая персональные данные, финансовые сведения и интеллектуальную собственность. Поэтому, инвестиции в передовые системы обнаружения и анализа, а также повышение осведомленности пользователей о признаках мошеннических писем и сайтов, являются критически важными для минимизации рисков и защиты от потенциальных убытков. Успешная борьба с фишингом требует комплексного подхода, включающего как технологические решения, так и человеческий фактор.

Ключ к Обнаружению: Идентификация Бренда

Точная идентификация легитимного бренда, от имени которого осуществляется фишинговая атака, является критически важным компонентом эффективного обнаружения. Неправильная атрибуция бренда существенно снижает эффективность анализа и может привести к ложноотрицательным результатам. Установление целевого бренда позволяет сосредоточить усилия на специфических визуальных элементах, доменных именах и коммуникационных шаблонах, характерных для данной организации, что повышает точность выявления вредоносного контента и снижает риск успешной атаки на пользователей.

Определение целевого бренда, который имитируется в фишинговой атаке, позволяет значительно повысить эффективность анализа и точность обнаружения. Указание конкретной организации, от имени которой действует злоумышленник, сужает область поиска индикаторов компрометации, упрощает сопоставление с известными шаблонами атак и позволяет использовать специализированные базы данных и инструменты для верификации легитимности домена, электронной почты и других элементов. Более точное определение бренда способствует уменьшению количества ложных срабатываний и ускоряет процесс реагирования на инциденты безопасности.

В ходе проведенного нами исследования, модель Gemini продемонстрировала наивысшую точность идентификации бренда, используемого в фишинговых атаках, достигнув показателя 94.59% при использовании входных данных, состоящих из скриншотов и URL-адресов. Данный результат указывает на высокую эффективность Gemini в определении поддельных веб-сайтов и электронных писем, маскирующихся под известные бренды, что делает её перспективным инструментом для автоматизированного обнаружения фишинга.

Оценка Эффективности: Баланс Точности и Надежности

Оценка систем обнаружения фишинга требует внимательного учета как показателя ложноположительных срабатываний, так и показателя ложноотрицательных срабатываний. Высокий уровень ложноположительных срабатываний может привести к раздражению пользователей и потере доверия к системе, заставляя их игнорировать предупреждения. В свою очередь, высокий уровень ложноотрицательных срабатываний означает, что вредоносные фишинговые письма остаются незамеченными, подвергая пользователей риску стать жертвами атак. Таким образом, оптимальная система должна стремиться к минимизации обоих показателей, обеспечивая баланс между защитой и удобством использования.

Высокий уровень ложноположительных срабатываний систем обнаружения фишинга приводит к раздражению пользователей и снижению доверия к системе защиты, заставляя их игнорировать предупреждения или обходить их. В то же время, высокий уровень ложноотрицательных срабатываний оставляет пользователей уязвимыми для атак, поскольку вредоносные письма и веб-сайты остаются незамеченными и могут привести к компрометации учетных данных или финансовым потерям. Следовательно, баланс между этими двумя показателями является критически важным для эффективной защиты.

Результаты тестирования систем обнаружения фишинга на основе набора данных APWG eCX показали, что коммерческие большие языковые модели (LLM), такие как GPT, достигают высокой точности обнаружения – 93.86% – при низком уровне ложных отрицательных срабатываний, составляющем всего 0.95%. Данный показатель существенно превосходит результаты, демонстрируемые моделями глубокого обучения, у которых уровень ложных отрицательных срабатываний составляет ≥64%. Это указывает на превосходство LLM в выявлении фишинговых атак по сравнению с традиционными подходами глубокого обучения в рамках данного набора данных.

Исследование демонстрирует, что эффективность обнаружения фишинга напрямую зависит от архитектуры используемой модели и качества входных данных. Кен Томпсон однажды заметил: «Простота — это высшая степень утончённости». Это высказывание находит отражение в работе, поскольку оптимальные результаты достигаются при использовании больших языковых моделей (LLM) и визуальных входных данных – скриншотов. Сложность традиционных методов уступает элегантности LLM, способных к более глубокому пониманию контекста и выявлению признаков фишинга. Понимание всей системы, а не только отдельных её частей, позволяет добиться максимальной точности в обнаружении угроз, что соответствует принципу целостного подхода к архитектуре и дизайну систем.

Куда двигаться дальше?

Представленное исследование, демонстрируя превосходство больших языковых моделей в выявлении фишинга, лишь обнажает сложность задачи. Успех, достигаемый при использовании скриншотов и низких температурных параметров, намекает на то, что сама суть фишинга лежит не только в лингвистических тонкостях, но и в визуальном контексте, в умении подражать знакомым образам. Однако, подобно врачу, пересаживающему сердце, не понимая кровообращения, простое улучшение точности моделей не решит проблему, если не будет учтена вся экосистема: психологические факторы, эволюция тактик злоумышленников, и, что особенно важно, поведение конечного пользователя.

Очевидно, что дальнейшие исследования должны быть направлены не только на совершенствование алгоритмов, но и на понимание того, как люди реагируют на фишинговые атаки. Интеграция моделей машинного обучения с анализом поведения пользователя, изучение когнитивных искажений, приводящих к ошибкам, – вот где кроется истинный потенциал. В противном случае, мы рискуем создать лишь более изощренную систему «ковшки», перехватывающую лишь незначительную часть угроз.

Наконец, необходимо признать, что любая модель – это лишь упрощение реальности. Истинная безопасность требует холистического подхода, сочетающего технологические решения с образованием и повышением осведомленности. Иначе, элегантный дизайн алгоритма будет бессилен против примитивной, но эффективной человеческой ошибки.

Оригинал статьи: https://arxiv.org/pdf/2511.09606.pdf

Связаться с автором: https://www.linkedin.com/in/avetisyan/

Смотрите также:

2025-11-16 01:06