Графовые модели под угрозой: как скопировать интеллект без доступа к коду

Автор: Денис Аветисян

Новое исследование показывает, что мощные графовые модели уязвимы для атак, позволяющих воссоздать их функциональность, включая способность к обобщению, используя лишь общедоступные данные.

"Покупай на слухах, продавай на новостях". А потом сиди с акциями никому не известной биотех-компании. Здесь мы про скучный, но рабочий фундаментал.

Бесплатный Телеграм канал

Анализ показывает, что специализированные атаки на графы позволяют извлекать информацию, демонстрируя уязвимость систем, основанных на графовых структурах данных.

Систематическое исследование демонстрирует возможность извлечения моделей на основе графовых нейронных сетей путем обучения суррогатной модели на публичных эмбеддингах.

Несмотря на стремительное развитие графового машинного обучения, безопасность масштабных моделей, кодирующих как структурные, так и семантические знания, остается недостаточно изученной. В работе ‘A Systematic Study of Model Extraction Attacks on Graph Foundation Models’ проведено первое систематическое исследование атак извлечения моделей (MEA) на графовые фундаменльные модели (GFM). Показано, что злоумышленник способен воссоздать функциональность GFM, включая способность к zero-shot выводам, обучая суррогатную модель на основе публично доступных векторных представлений графов, даже без доступа к исходным данным или параметрам модели. Подтверждает ли это необходимость разработки принципиально новых методов защиты, ориентированных на предотвращение атак извлечения моделей в крупных графовых системах?

За пределами Евклидова пространства: Рождение графового машинного обучения

Традиционные методы машинного обучения зачастую испытывают трудности при работе с данными, где важны не только отдельные характеристики объектов, но и связи между ними. Например, при анализе социальных сетей, рекомендательных систем или молекулярных структур, информация о взаимосвязях играет ключевую роль, которую сложно эффективно учесть при использовании алгоритмов, ориентированных на независимые признаки. В таких случаях обработка данных как набора несвязанных точек приводит к потере ценной информации и снижению точности прогнозов. Это особенно заметно при работе с данными, имеющими сложную структуру и зависимостями, где простое игнорирование связей между элементами может привести к значительному ухудшению результатов анализа и, как следствие, к неверным выводам.

Машинное обучение на графах (GML) представляет собой фундаментальный сдвиг в парадигме анализа данных, позволяющий перейти от рассмотрения изолированных точек к изучению связей между ними. В отличие от традиционных методов, которые оперируют атрибутами отдельных объектов, GML напрямую моделирует отношения, представляя данные в виде графов, состоящих из узлов и ребер. Такой подход открывает новые возможности для анализа сложных систем, где взаимосвязи играют ключевую роль, например, в социальных сетях, биологических сетях или транспортных системах. Благодаря этому, GML позволяет выявлять скрытые закономерности, предсказывать поведение и оптимизировать процессы, которые были бы недоступны при использовании стандартных алгоритмов машинного обучения. Использование $G = (V, E)$ для представления графа, где $V$ — множество вершин, а $E$ — множество ребер, является основой для разработки алгоритмов, способных эффективно обрабатывать реляционные данные.

Модель GFM предварительно обучается на сопоставлении атрибутированных подграфов с текстовыми описаниями, используя только обучаемый кодировщик графов, а затем классифицирует узлы по принципу нулевого обучения, сопоставляя векторное представление графа с векторными представлениями текстовых меток.

Нейронные сети для графов: Кодирование реляционных знаний

Нейронные сети для графов (GNN) представляют собой расширение методов глубокого обучения для работы со структурированными данными в виде графов. В отличие от традиционных нейронных сетей, которые оперируют данными в виде векторов или матриц, GNN способны учитывать как атрибуты узлов ($x_i$), так и топологию связей между ними. Это позволяет сети извлекать признаки, отражающие не только индивидуальные характеристики узлов, но и их взаимосвязи в графе, что критически важно для задач, где отношения между данными играют важную роль. Процесс обучения GNN включает в себя итеративное обновление представлений узлов на основе информации, полученной от соседних узлов и атрибутов самих узлов, что позволяет сети адаптироваться к сложным зависимостям в графовой структуре.

Существуют различные архитектуры графовых нейронных сетей (GNN), отличающиеся подходами к передаче сообщений и агрегации информации из окрестностей узла. Graph Convolutional Networks (GCN) используют спектральную свертку для агрегации признаков соседних узлов, эффективно применяя фильтры к графу. Attention-based Graph Neural Networks (GAT) применяют механизм внимания для взвешивания вклада соседних узлов, позволяя модели фокусироваться на наиболее важных связях. GraphSAGE (Sample and Aggregate) предлагает метод выборочной агрегации, позволяющий масштабировать обработку графов, выбирая фиксированное количество соседей для агрегации, и может использовать различные функции агрегации, такие как среднее, max-pooling или LSTM. Каждая из этих архитектур оптимизирована для различных типов графовых данных и задач, предоставляя гибкость в построении моделей для анализа графовых структур.

Архитектуры, такие как графовые сверточные сети (GCN), графовые механизмы внимания (GAT) и GraphSAGE, служат базовыми строительными блоками для моделирования сложных взаимосвязей в графовых данных. Они достигают этого посредством итеративного процесса передачи сообщений между узлами, где каждый узел агрегирует информацию от своих соседей. Агрегация может быть реализована различными способами — от простого усреднения до использования механизмов внимания, позволяющих придать больший вес более важным соседям. Этот процесс позволяет сети изучать представления узлов, учитывающие не только атрибуты самих узлов, но и их положение в графе, а также характеристики их связей. В результате, эти архитектуры способны эффективно моделировать зависимости, которые не могут быть уловлены традиционными методами глубокого обучения, предназначенными для данных в виде сетки или последовательности.

Графовые фундаментальные модели: Новый подход к обобщению

Основанные на графах фундаментальные модели (GFM) используют возможности крупномасштабных графовых данных и контрастивного обучения для достижения выдающихся способностей к обобщению. Контрастивное обучение позволяет моделям изучать представления, устойчивые к различным преобразованиям входных данных, а также отличать релевантную информацию от нерелевантной. Использование больших графовых данных, содержащих миллиарды узлов и связей, обеспечивает модели широкую базу знаний и позволяет ей эффективно экстраполировать полученные знания на новые, ранее не встречавшиеся задачи. Эффективность GFMs обусловлена способностью модели выявлять скрытые связи и закономерности в данных, что позволяет ей успешно решать задачи, для которых нет явных обучающих примеров. Такой подход позволяет значительно снизить потребность в размеченных данных и повысить адаптивность моделей к новым условиям.

Эффективность моделей-оснований на графах (GFM) напрямую зависит от качества используемых графовых кодировщиков. Эти кодировщики преобразуют структуру и атрибуты графа в векторные представления, пригодные для последующей обработки. В настоящее время наблюдается тенденция к интеграции графовых кодировщиков с текстовыми кодировщиками, что позволяет моделям обрабатывать и объединять информацию из различных модальностей. Такое мультимодальное понимание достигается за счет совместного обучения представлений графов и текста, что позволяет GFM учитывать как структурные связи в графах, так и семантическое содержание текстовых данных. Например, текстовые кодировщики могут предоставлять контекст для узлов или ребер графа, улучшая качество векторных представлений и, следовательно, общую производительность модели.

Графовые фундаментальные модели (GFM) демонстрируют значительные возможности выполнения задач без предварительного обучения на конкретных примерах, что известно как zero-shot инференс. Этот подход основан на предварительном обучении модели на обширных графовых данных с использованием контрастивного обучения, что позволяет ей усваивать общие представления о структуре и взаимосвязях данных. В результате, GFM способны обобщать знания, полученные в процессе предварительного обучения, и успешно решать новые задачи, не требующие явной адаптации или тонкой настройки. Эффективность zero-shot инференса в GFM подтверждается результатами экспериментов в различных областях, включая предсказание связей в графах знаний, классификацию узлов и генерацию графов, что подчеркивает их потенциал для широкого спектра приложений.

Исследование демонстрирует шесть реалистичных сценариев атак по извлечению моделей на больших языковых моделях (GFM).

Обеспечение безопасности графовых фундаментальных моделей: Противодействие атакам извлечения

Атаки извлечения моделей представляют собой серьезную угрозу для графовых фундаментальных моделей (GFM), поскольку злоумышленники могут реконструировать функциональность модели, получив доступ к её внешнему поведению. В отличие от традиционных атак, направленных на нарушение работы модели, извлечение нацелено на создание её точной копии, что позволяет атакующему использовать украденную модель для собственных целей без необходимости её повторного обучения. Данный тип атак особенно опасен для GFM, поскольку эти модели часто используются в чувствительных областях, таких как анализ социальных сетей, рекомендации и обнаружение мошенничества, где конфиденциальность и интеллектуальная собственность имеют первостепенное значение. Успешное извлечение может привести к утечке ценной информации и потере конкурентных преимуществ, что подчеркивает необходимость разработки эффективных мер защиты.

Атаки извлечения моделей, представляющие собой серьезную угрозу для графовых фундаментальных моделей (GFM), часто используют метод регрессии эмбеддингов, основанный на графовом кодировщике. Данный подход позволяет злоумышленнику обучить суррогатную модель, имитирующую функциональность целевой GFM, используя только эмбеддинги графов, полученные от жертвы. Суть метода заключается в обучении суррогатного кодировщика, который предсказывает эмбеддинги, генерируемые целевой моделью для заданного набора графов. Обучение происходит путем минимизации разницы между эмбеддингами, полученными от жертвы и суррогатной модели, что позволяет последней воспроизвести поведение целевой модели без прямого доступа к ее параметрам. Эффективность этого метода заключается в возможности относительно быстрого обучения суррогатной модели, требующей значительно меньше вычислительных ресурсов, чем исходная GFM, при этом сохраняя высокую точность.

Исследования показали, что создание упрощенного, суррогатного графового энкодера, способного воспроизвести производительность крупной графовой модели (GFM) в задачах, где модель не обучалась напрямую (zero-shot learning), возможно посредством контролируемой регрессии эмбеддингов. Этот процесс требует минимальных вычислительных ресурсов и времени: для модели GPS суррогатный энкодер обучается всего за 5 минут, а для GAT и GCN — менее чем за 3 минуты. Полученная упрощенная модель демонстрирует производительность, сопоставимую с оригинальной, при значительном снижении сложности — количество параметров в суррогатных моделях составляет от 950 тысяч (GCN) до 11 миллионов (GPS), в то время как исходные модели содержат 128 миллионов параметров. Это указывает на возможность эффективной дистилляции знаний из крупных GFM в более компактные и быстрые модели, сохраняя при этом высокую точность.

Исследования показали, что создание упрощенной, “суррогатной” модели графового фундаментального модели (GFM) возможно с сохранением высокой производительности, но при значительном снижении вычислительных затрат. В ходе экспериментов удалось обучить модели с 11 миллионами параметров (GPS), 2,9 миллионами (GAT) и 0,95 миллионами (GCN) параметров, способные приблизиться к производительности исходной, “жертвенной” модели, содержащей 128 миллионов параметров. Такое существенное уменьшение размера достигается за счет использования методов регрессии встраиваний, позволяющих перенести ключевые знания из большой модели в компактную. Это открывает возможности для развертывания GFM на устройствах с ограниченными ресурсами и снижения энергопотребления, сохраняя при этом высокую точность.

Исследования показали, что воссоздание функциональности крупных моделей графовых данных с использованием методов извлечения не приводит к существенной потере точности. В частности, применительно к моделям GAT и GCN, снижение средней точности на различных наборах данных для оценки составило всего 0.15% и менее 0.66% соответственно. Это означает, что злоумышленник, успешно извлекший модель, может получить почти идентичную производительность, как у исходной, при значительно меньших вычислительных затратах. Полученные результаты подчеркивают серьезность угроз, связанных с атаками извлечения, и необходимость разработки эффективных методов защиты, способных сохранить как функциональность, так и конфиденциальность графовых моделей.

Для защиты графовых фундаментальных моделей (GFM) от атак, направленных на извлечение их функциональности, предлагается комплексный подход, включающий несколько стратегий. Использование доменных знаний позволяет формировать более устойчивые представления данных, затрудняя реконструкцию модели злоумышленником. Методы дистилляции знаний, передавая информацию от сложной, большой модели к более компактной, снижают вычислительные затраты и повышают устойчивость к извлечению. Применение дифференциальной приватности вносит контролируемый шум в процесс обучения, защищая конфиденциальность данных и ограничивая возможности злоумышленника по восстановлению исходной модели. Наконец, эксплуатация присущих графовым данным свойств, таких как гомофилия (тенденция узлов быть связанными с похожими узлами), позволяет создавать модели, более устойчивые к атакам, поскольку злоумышленнику становится сложнее реконструировать связи и функциональность на основе ограниченного набора данных.

Атакующий агент GAT демонстрирует повышение точности и достоверности по мере увеличения количества запросов.

Исследование демонстрирует, что даже сложные графовые модели, обученные на обширных данных, уязвимы к атакам, направленным на извлечение их функциональности. Авторы показывают, что, используя лишь публично доступные эмбеддинги, можно создать суррогатную модель, способную воспроизводить возможности оригинальной, включая обобщение на новые задачи. Этот процесс напоминает реверс-инжиниринг системы, где понимание структуры достигается не через документацию, а через анализ выходных данных. Как однажды заметил Г.Х. Харди: «Математика — это наука о том, что не можем знать». В данном случае, уязвимость моделей показывает, что границы познания и воспроизведения алгоритмов размыты, а кажущаяся сложность системы может скрывать под собой закономерности, доступные для анализа и повторения.

Что дальше?

Представленные результаты заставляют задуматься: если эмбеддинги — это лишь проекция скрытых закономерностей графовой модели, то не является ли сама атака извлечения модели не взломом, а лишь другим способом «прочтения» этой проекции? Вместо того, чтобы рассматривать её как уязвимость, возможно, стоит видеть в ней инструмент для более глубокого понимания внутреннего устройства графовых фундаментальных моделей. Ведь, если «суррогат» успешно воспроизводит поведение оригинала, не означает ли это, что ключевая информация содержится не в параметрах модели, а в структуре и семантике эмбеддингов?

Очевидно, что необходимы исследования, направленные на оценку устойчивости различных архитектур графовых нейронных сетей к подобным атакам. Не менее важно изучить влияние размера и качества обучающей выборки, используемой для создания «суррогата». И, конечно, стоит задаться вопросом: может ли намеренное внесение «шума» в эмбеддинги служить формой защиты, или же это лишь создаст иллюзию безопасности, скрывая истинную уязвимость?

В конечном итоге, представленная работа поднимает фундаментальный вопрос: что есть модель — чёрный ящик, который нужно защищать, или же открытая система, которую можно изучать и реконструировать? И ответ на этот вопрос, вероятно, определит будущее исследований в области графового машинного обучения.

Оригинал статьи: https://arxiv.org/pdf/2511.11912.pdf

Связаться с автором: https://www.linkedin.com/in/avetisyan/

Смотрите также:

2025-11-18 20:18