Защита Интернета вещей: федеративное обучение против атак

Автор: Денис Аветисян


Новый подход к обнаружению вторжений в IoT-системах, использующий распределенное обучение без централизованного хранения данных.

Количество точек данных, собранных для каждой атаки, демонстрирует вариативность объемов информации, доступной для анализа различных типов угроз.
Количество точек данных, собранных для каждой атаки, демонстрирует вариативность объемов информации, доступной для анализа различных типов угроз.

Исследование сравнивает эффективность алгоритмов FedAvg, FedProx и Scaffold в условиях статистической неоднородности данных (non-IID) с использованием набора данных CICIoT2023.

"Покупай на слухах, продавай на новостях". А потом сиди с акциями никому не известной биотех-компании. Здесь мы про скучный, но рабочий фундаментал.

Бесплатный Телеграм канал

Несмотря на растущую распространенность устройств интернета вещей, обеспечение безопасности этих систем в условиях гетерогенных и неравномерно распределенных данных остается сложной задачей. В данной работе, ‘A Robust Federated Learning Approach for Combating Attacks Against IoT Systems Under non-IID Challenges’, исследуется эффективность различных алгоритмов федеративного обучения — FedAvg, FedProx и Scaffold — для обнаружения атак на IoT-устройства при наличии статистической неоднородности. Эксперименты с использованием датасета CICIoT2023 показали, что алгоритм FedProx демонстрирует наилучшую производительность в условиях неравномерного распределения данных. Какие дальнейшие усовершенствования федеративного обучения позволят еще эффективнее противостоять сложным атакам на IoT-системы в реальных условиях?


Растущая Угроза: Кибершторм над Сетевой Инфраструктурой

Современные сетевые инфраструктуры сталкиваются с постоянно усложняющимися кибератаками, эволюционирующими от простых атак типа «отказ в обслуживании» (DoS) до более изощренных вторжений, таких как те, что основаны на ботнете Mirai. В то время как DoS-атаки стремятся вывести из строя сервис путем перегрузки его трафиком, Mirai использует взломанные IoT-устройства для создания масштабных распределенных атак типа «отказ в обслуживании» (DDoS), значительно превосходящих по мощности и сложности традиционные методы. Эти атаки, использующие уязвимости в незащищенных устройствах «умного дома», охватывают широкий спектр целей, от веб-серверов до систем управления инфраструктурой, представляя серьезную угрозу для стабильности и безопасности цифровых систем. Постоянное развитие тактик злоумышленников требует от специалистов по кибербезопасности непрерывного совершенствования методов защиты и разработки новых, более эффективных контрмер.

Традиционные системы обнаружения вторжений (IDS) все чаще оказываются неспособными эффективно справляться с постоянно растущим объемом и разнообразием кибератак. Эти системы, разработанные для анализа известных сигнатур угроз, испытывают трудности при обнаружении новых, ранее неизвестных атак, использующих полиморфный код или сложные техники обхода защиты. Увеличение скорости сетевого трафика и расширение атакуемой поверхности, обусловленные ростом числа подключенных устройств, усугубляют эту проблему. В результате, злоумышленники получают возможность проникать в сети, оставаясь незамеченными в течение длительного времени, что приводит к значительным финансовым потерям и репутационному ущербу. Недостаточная адаптивность и ограниченные возможности по анализу аномалий делают существующие IDS уязвимыми перед современными, изощренными атаками, подчеркивая необходимость разработки более интеллектуальных и масштабируемых решений в области кибербезопасности.

Распространение устройств интернета вещей (IoT) значительно усугубило существующие киберугрозы, создавая новые и сложные проблемы для безопасности. Уязвимости, присущие этим устройствам — часто из-за недостаточной защиты, ограниченных вычислительных ресурсов и редких обновлений программного обеспечения — делают их легкой мишенью для злоумышленников. В отличие от традиционных компьютеров, IoT-устройства часто работают без постоянного присмотра, что затрудняет обнаружение и устранение атак. В результате, даже небольшие уязвимости могут привести к масштабным нарушениям безопасности, таким как захват контроля над устройствами, кража данных или использование устройств в составе ботнетов для проведения DDoS-атак. Поэтому, для эффективной защиты от современных киберугроз требуется разработка и внедрение надежных и масштабируемых решений, способных адаптироваться к постоянно растущему количеству и разнообразию подключенных устройств.

Для эффективного анализа современных киберугроз необходимы масштабные наборы данных, такие как CICIoT2023. Этот комплексный набор данных предоставляет реалистичную платформу для оценки и совершенствования систем обнаружения вторжений, особенно в контексте растущего числа подключенных устройств интернета вещей. Он содержит разнообразные типы атак, имитирующие реальные сценарии, что позволяет исследователям и разработчикам тестировать новые алгоритмы и методы защиты в условиях, приближенных к реальным. Использование CICIoT2023 способствует созданию более надежных и масштабируемых решений в области кибербезопасности, позволяя оперативно реагировать на постоянно эволюционирующие угрозы и повышать общий уровень защиты информационных систем.

Количество точек данных варьируется в зависимости от типа атаки.
Количество точек данных варьируется в зависимости от типа атаки.

Федеративное Обучение: Децентрализованный Подход к Безопасности

Федеративное обучение (FL) представляет собой подход к построению моделей машинного обучения, при котором обучение происходит на децентрализованных источниках данных, таких как мобильные устройства или серверы организаций, без необходимости обмена самими данными. Вместо этого, каждый клиент локально обучает модель на своих данных, а затем отправляет только обновленные параметры модели (например, веса) на центральный сервер. Центральный сервер агрегирует эти обновления, создавая глобальную модель, которая затем распространяется обратно клиентам. Такой подход позволяет сохранять конфиденциальность данных, поскольку сами данные не покидают устройства пользователей или локальные серверы, и значительно снижает требования к пропускной способности сети, так как передается лишь небольшое количество параметров модели, а не полные наборы данных.

Процесс федеративного обучения начинается с разделения данных (Data Partitioning), при котором исходный набор данных распределяется между множеством клиентских устройств или серверов. Каждый клиент получает подмножество данных и использует его для локального обновления модели. Вместо централизованной передачи данных на сервер для обучения, обучение происходит непосредственно на клиентских устройствах. Полученные локальные обновления, представляющие собой изменения в параметрах модели, затем отправляются на центральный сервер для агрегации, без передачи самих данных. Этот подход позволяет использовать данные, которые не могут быть централизованы из-за соображений конфиденциальности, нормативных требований или ограничений пропускной способности сети.

Алгоритм FedAvg (Federated Averaging) представляет собой базовый метод агрегации локальных обновлений моделей, полученных на различных клиентских устройствах, для формирования глобальной модели. В процессе обучения, каждый клиент вычисляет градиент или обновление модели на своей локальной части данных. Затем эти обновления отправляются на центральный сервер, где они усредняются для получения нового набора глобальных весов модели. Этот процесс повторяется итеративно, улучшая глобальную модель без необходимости обмена самими данными. FedAvg обеспечивает повышение эффективности за счет параллельного обучения на множестве устройств и повышение безопасности, поскольку конфиденциальные данные остаются на клиентских устройствах, а передаются только обновления модели. Математически, глобальное обновление можно представить как $w_{t+1} = \sum_{i=1}^{N} \frac{n_i}{n} w_i^t$, где $w_{t+1}$ — глобальные веса на итерации $t+1$, $N$ — количество клиентов, $n_i$ — размер локального набора данных клиента $i$, а $n$ — общий размер набора данных.

Эффективность федеративного обучения (FL) напрямую зависит от характеристик распределенных данных. Если данные на различных клиентских устройствах распределены независимо и идентично (IID), то FL демонстрирует оптимальную сходимость и точность. Однако, в реальных сценариях часто встречается не-IID распределение данных, когда на разных устройствах преобладают различные классы или признаки. Не-IID данные приводят к смещению локальных моделей, что затрудняет их агрегацию в глобальную модель и снижает общую производительность. Степень не-IID влияет на скорость сходимости и требует применения специальных алгоритмов и техник для смягчения эффекта смещения, таких как взвешивание обновлений или использование более сложных стратегий агрегации.

Клиенты самостоятельно подготавливают локальные данные для дальнейшей обработки.
Клиенты самостоятельно подготавливают локальные данные для дальнейшей обработки.

Учёт Неоднородности Данных в Федеративном Обучении: Реальные Вызовы

Реальные наборы данных, в частности, используемые для анализа кибератак, часто характеризуются не-IID (Non-Independent and Identically Distributed) распределениями. Это означает, что данные на различных клиентских устройствах или в различных источниках отличаются по своим статистическим свойствам, что приводит к смещению моделей машинного обучения и снижению их общей производительности. Не-IID данные могут проявляться в виде несбалансированности классов, различий в распределении признаков или изменений во временных рядах, что затрудняет обучение обобщающей модели, способной эффективно работать с новыми, ранее не встречавшимися данными. Такая гетерогенность данных требует применения специализированных алгоритмов и техник для смягчения негативного влияния на качество модели.

Алгоритмы, такие как FedProx и Scaffold, предназначены для смягчения последствий статистической неоднородности данных в процессе федеративного обучения. FedProx использует проксимальные члены в функции потерь, которые штрафуют отклонение локальных моделей от глобальной, способствуя стабилизации обучения при наличии Non-IID данных. Scaffold, в свою очередь, внедряет управляющие переменные (control variates) для уменьшения дисперсии градиентов, что позволяет модели быстрее сходиться и повышает ее точность в условиях статистической неоднородности. Оба подхода направлены на снижение влияния локальных смещений в данных и обеспечение более равномерной сходимости глобальной модели.

Результаты экспериментов демонстрируют значительное улучшение сходимости и точности моделей при использовании алгоритмов, адаптированных к данным с не-IID распределением. В частности, алгоритм Scaffold достиг точности 96.16% при работе с независимо и одинаково распределенными данными (IID), в то время как базовый алгоритм FedAvg показал низкую точность в 28.88% при работе с данными с не-IID распределением. Данные показатели подтверждают эффективность предложенных подходов к решению проблемы статистической неоднородности данных в задачах федеративного обучения.

Процесс обучения в федеративном обучении использует методы оптимизации, такие как Стохастический Градиентный Спуск (SGD), и функции потерь, например, Перекрёстная Энтропия, для уточнения параметров модели. Экспериментальные данные демонстрируют, что применение алгоритма FedProx со значением $\mu$ равным 0.04 значительно улучшает точность модели при работе с неоднородными данными (Non-IID), достигая 71.88% по сравнению с 28.88% для FedAvg. При этом, функция потерь для FedProx составила 1.10, что существенно ниже, чем 12.54 для FedAvg, что указывает на более эффективную оптимизацию и сходимость при использовании FedProx в условиях статистической неоднородности данных.

Предложенный подход демонстрирует превосходство над традиционными методами при работе с неоднородными данными.
Предложенный подход демонстрирует превосходство над традиционными методами при работе с неоднородными данными.

Взгляд в Будущее: Усиление Кибербезопасности с Помощью Федеративного Обучения

Перспективный подход, известный как федеративное обучение, открывает новые возможности для создания более устойчивых и адаптивных систем обнаружения вторжений. В отличие от традиционных методов, требующих централизованного сбора данных, федеративное обучение позволяет моделям обучаться непосредственно на распределенных данных, находящихся на различных устройствах и в разных сетях. Это особенно важно в условиях постоянно меняющихся угроз, поскольку система может оперативно адаптироваться к новым паттернам атак, не подвергая конфиденциальные данные риску централизованного хранения. Благодаря возможности объединять знания из множества источников, система становится более эффективной в обнаружении сложных и замаскированных атак, значительно повышая общую безопасность критической инфраструктуры и сетевых ресурсов. Такой подход позволяет не только идентифицировать известные угрозы, но и предсказывать появление новых, обеспечивая проактивную защиту от киберпреступников.

Федеративное обучение позволяет значительно повысить эффективность обнаружения сложных атак, таких как спуфинг и разведка, за счёт использования распределённых данных из различных источников. Традиционные системы часто ограничены данными, доступными в одном месте, что затрудняет выявление аномалий, возникающих в разных сегментах сети. Применение федеративного обучения позволяет объединить знания, полученные из разрозненных источников данных, не передавая сами данные в централизованное хранилище. Это особенно важно для обнаружения атак разведки, когда злоумышленники постепенно собирают информацию о системе, поскольку анализ распределённых данных позволяет выявить подозрительную активность, даже если она проявляется лишь в отдельных частях сети. Кроме того, федеративное обучение повышает устойчивость к спуфингу, позволяя модели обучаться на разнообразных паттернах поведения, характерных для различных пользователей и устройств, и тем самым более точно идентифицировать поддельные запросы или действия.

Необходимость оптимизации алгоритмов федеративного обучения (FL) для конкретных задач кибербезопасности остается актуальной областью исследований. Существующие алгоритмы часто требуют адаптации для эффективной работы с данными, характерными для систем обнаружения вторжений или анализа сетевого трафика. Параллельно, вопросы сохранения конфиденциальности и безопасности самих данных при распределенном обучении представляют собой серьезный вызов. Разработка новых методов, таких как дифференциальная конфиденциальность и гомоморфное шифрование, может существенно снизить риски, связанные с утечкой информации, и обеспечить надежную защиту чувствительных данных в процессе обучения моделей. Дальнейшие исследования направлены на создание алгоритмов, которые не только обеспечивают высокую точность обнаружения угроз, но и гарантируют соблюдение строгих требований к приватности и безопасности данных, что критически важно для широкого внедрения FL в сфере кибербезопасности.

Непрерывное совершенствование методов обработки разнородных данных представляется ключевым фактором для раскрытия всего потенциала федеративного обучения в сфере защиты критически важной инфраструктуры и сетей. Разнообразие форматов, источников и качества данных, генерируемых различными устройствами и системами, создает значительные трудности для традиционных алгоритмов машинного обучения. Для эффективного функционирования федеративного обучения необходимо разработать и внедрить методы, способные адаптироваться к этой гетерогенности, обеспечивая стабильную и точную работу моделей даже при наличии значительных различий в данных. Подобные разработки позволят не только повысить эффективность обнаружения и предотвращения кибератак, но и обеспечить более надежную защиту от сложных и постоянно меняющихся угроз, адаптируя алгоритмы к специфике различных сетевых сред и типов данных.

Исследование показывает, что даже самые изящные алгоритмы федеративного обучения, такие как FedAvg, FedProx и Scaffold, сталкиваются с проблемами при работе с неоднородными данными IoT-устройств. FedProx, конечно, проявил себя лучше других, но это лишь отсрочка неизбежного. Вспоминается высказывание Алана Тьюринга: «Мы можем только надеяться, что машины не станут настолько умными, чтобы превзойти нас». В контексте информационной безопасности это звучит как ирония. Всё новое — это старое, только с другими векторами атаки и более сложными алгоритмами обнаружения. И рано или поздно, продакшен найдёт способ обойти и эту защиту, как всегда бывает.

Что дальше?

Представленная работа, как и большинство исследований в области федеративного обучения, демонстрирует неплохие результаты на синтетическом датасете. Однако, стоит помнить, что CICIoT2023 — это всё ещё лабораторные условия. Реальные IoT-системы, как известно, склонны удивлять непредсказуемыми аномалиями и данными, которые даже близко не соответствуют предположениям о нормальном распределении. FedProx показывает себя чуть лучше остальных, но это, скорее, говорит о том, что более сложные алгоритмы чуть медленнее ломаются, а не о принципиальном прорыве.

Вопрос статистической неоднородности данных остаётся актуальным. Вместо бесконечной гонки за более изощрёнными методами агрегации моделей, возможно, стоит пересмотреть сам подход к обучению. Очевидно, что централизованное обучение на тщательно отобранных данных, хоть и менее «модное», всё ещё может дать лучшие результаты, чем попытки усреднить хаос. К тому же, любой «революционный» алгоритм рано или поздно потребует тонкой настройки под каждый конкретный девайс, превращаясь в дорогостоящий и трудоёмкий процесс.

В конечном счёте, каждое «прорывное» решение в области безопасности IoT — это лишь отсрочка неизбежного. Продакшен всегда найдёт способ обойти даже самую элегантную защиту. Поэтому, вместо того чтобы искать идеальный алгоритм, возможно, стоит сосредоточиться на разработке систем, способных быстро адаптироваться к новым угрозам и автоматически исправлять ошибки. Если код выглядит идеально — значит, его ещё никто не деплоил.


Оригинал статьи: https://arxiv.org/pdf/2511.16822.pdf

Связаться с автором: https://www.linkedin.com/in/avetisyan/

Смотрите также:

2025-11-24 20:18