Когда нейросети теряют ориентиры: адаптация к новым условиям

Автор: Денис Аветисян


Новое исследование объясняет, почему нейронные сети испытывают трудности при работе с незнакомыми данными и предлагает способ исправить эту проблему.

"Покупай на слухах, продавай на новостях". А потом сиди с акциями никому не известной биотех-компании. Здесь мы про скучный, но рабочий фундаментал.

Бесплатный Телеграм канал
Предложенный метод адаптации, NCTTA, формирует гибридные целевые векторы, объединяя геометрическую близость (расстояние FCA) и уверенность предсказания, тем самым направляя признаки к правдоподобным весам классификатора и отталкивая негативные примеры посредством функции потерь $\mathcal{L}\_{\text{NC}}$.
Предложенный метод адаптации, NCTTA, формирует гибридные целевые векторы, объединяя геометрическую близость (расстояние FCA) и уверенность предсказания, тем самым направляя признаки к правдоподобным весам классификатора и отталкивая негативные примеры посредством функции потерь $\mathcal{L}\_{\text{NC}}$.

Работа посвящена анализу явления ‘Neural Collapse’ в контексте адаптации к сдвигу домена и предлагает метод выравнивания признаков и весов классификатора для повышения устойчивости модели.

Несмотря на успехи моделей глубокого обучения, их устойчивость к изменениям в распределении данных остается серьезной проблемой. В работе ‘Neural Collapse in Test-Time Adaptation’ исследуется феномен, лежащий в основе адаптации моделей во время инференса, и показано, что нарушение соответствия между векторными представлениями объектов и весами классификатора приводит к снижению производительности при смещении домена. Авторы расширяют теорию Neural Collapse до уровня отдельных примеров, выявляя, что восстановление этого соответствия является ключом к повышению устойчивости. Какие новые стратегии можно разработать для активного выравнивания признаков и классификаторов, чтобы обеспечить надежную работу моделей в условиях постоянно меняющихся данных?


Вызов внераспределительной обобщающей способности

Глубокие нейронные сети демонстрируют впечатляющие результаты в решении разнообразных задач, однако их производительность существенно снижается при работе с данными, отличающимися от тех, на которых они обучались — так называемыми внераспределительными данными (OOD). Этот феномен представляет собой серьезную проблему, поскольку реальные условия эксплуатации часто подразумевают столкновение с новыми, ранее не встречавшимися входными данными. Несмотря на способность к обучению сложным закономерностям, современные DNNs зачастую полагаются на статистические корреляции в обучающем наборе, что делает их уязвимыми к даже незначительным изменениям в структуре входных данных. Таким образом, надежность и практическая применимость глубоких нейронных сетей в динамично меняющейся среде остается важным направлением исследований, требующим разработки методов повышения устойчивости к внераспределительным данным.

Уязвимость глубоких нейронных сетей при работе с данными, отличными от тех, на которых они обучались, обусловлена неспособностью поддерживать устойчивые признаки. Когда модель сталкивается с незнакомыми входными данными, её внутренние представления могут значительно искажаться, что приводит к снижению точности прогнозов. Вместо того, чтобы выделять инвариантные и значимые характеристики объекта, сеть может фокусироваться на случайных вариациях или шуме, присутствующих в новых данных. Эта проблема возникает из-за тенденции моделей «запоминать» обучающие данные, а не обобщать лежащие в их основе принципы, что делает их чувствительными к даже незначительным изменениям во входных данных. В результате, надежность предсказаний существенно снижается при переходе к данным, не соответствующим распределению обучающей выборки, что ограничивает практическое применение таких моделей в реальных условиях.

Существующие методы, такие как адаптация к домену, часто сталкиваются с проблемой значительных затрат ресурсов и необходимостью доступа к данным, представляющим целевой домен. Это ограничивает их практическое применение в реальных сценариях, где получение размеченных данных для каждого нового окружения может быть невозможным или крайне дорогостоящим. Вместо того, чтобы эффективно обобщать знания на неизвестные данные, эти подходы требуют существенной предварительной подготовки и настройки для каждого конкретного случая, что делает их менее универсальными и масштабируемыми. Поэтому возникает необходимость в разработке более эффективных и ресурсосберегающих методов, способных к обобщению без необходимости доступа к данным тестового распределения.

Анализ распределений расстояний G-FCA и P-FCA для правильно и неправильно классифицированных изображений из набора ImageNet-C при сильном уровне шума и снежного эффекта показывает нарушение принципа NC3+, что приводит к рассогласованию на уровне отдельных образцов при адаптации.
Анализ распределений расстояний G-FCA и P-FCA для правильно и неправильно классифицированных изображений из набора ImageNet-C при сильном уровне шума и снежного эффекта показывает нарушение принципа NC3+, что приводит к рассогласованию на уровне отдельных образцов при адаптации.

Геометрический взгляд на нейронный коллапс

Явление нейронного коллапса (Neural Collapse, NC) описывает набор геометрических свойств, возникающих в глубоких нейронных сетях (DNN) в терминальной фазе обучения (TPT). Эти свойства характеризуют структуру представлений, формирующихся в последних слоях сети, и позволяют анализировать принципы, лежащие в основе процесса обучения. В частности, NC проявляется в сближении признаков внутри одного класса и формировании структуры, напоминающей симплекс равноугольной плотной рамки, что обеспечивает эффективное разделение классов. Исследование NC позволяет получить более глубокое понимание механизмов обучения DNN и может быть использовано для разработки более эффективных архитектур и алгоритмов обучения. Данный феномен не является артефактом конкретной архитектуры или набора данных, а, по-видимому, представляет собой фундаментальное свойство глубокого обучения.

В процессе обучения глубоких нейронных сетей (DNN) наблюдается феномен, известный как Neural Collapse (NC), проявляющийся в сближении векторов признаков внутри одного класса (Variability Collapse, NC1). Это означает, что векторы, представляющие различные экземпляры одного и того же класса, стремятся к одной и той же точке в многомерном пространстве признаков. Одновременно с этим формируется структура, известная как Simplex Equiangular Tight Frame (NC2), представляющая собой набор векторов, обеспечивающих максимальное разделение между классами и оптимальную устойчивость к шуму. Данная структура гарантирует, что векторы, представляющие разные классы, будут максимально удалены друг от друга, что способствует повышению точности классификации. Фактически, NC2 обеспечивает формирование линейно отделимых классов в конечном слое сети.

Свойства схождения к самодвойственности (NC3) и упрощения до ближайшего центра класса (NC4) в процессе обучения глубоких нейронных сетей (DNN) демонстрируют формирование упрощенной границы принятия решений в последних слоях. NC3 предполагает, что классификаторы и признаки сходятся к самодвойственному представлению, где веса классификатора и векторы признаков становятся пропорциональными. NC4 указывает на то, что в терминальной фазе обучения (TPT) выходные векторы признаков стремятся к центрам соответствующих классов, что приводит к более четкому и легко интерпретируемому пространству признаков. Эти свойства совместно способствуют формированию компактной и эффективной границы принятия решений, облегчая процесс классификации и повышая устойчивость модели к шуму и отклонениям во входных данных.

Экспериментальная проверка NC3+ на ImageNet-100 показала снижение расстояния G-FCA между выборками в процессе обучения, что свидетельствует об успешной выработке согласованного представления данных.
Экспериментальная проверка NC3+ на ImageNet-100 показала снижение расстояния G-FCA между выборками в процессе обучения, что свидетельствует об успешной выработке согласованного представления данных.

Согласование признаков и классификатора: ключ к надёжности

Обеспечение соответствия между векторными представлениями образцов (feature embeddings) и весами соответствующих классификаторов имеет решающее значение для повышения устойчивости и обобщающей способности моделей машинного обучения. Несоответствие между этими представлениями приводит к снижению точности, особенно при работе с данными, отличающимися от обучающей выборки. Улучшение этого соответствия достигается за счет оптимизации как процесса извлечения признаков, так и обучения классификатора, с акцентом на минимизацию расстояния между представлениями образцов и весами соответствующих классов в пространстве признаков. Это позволяет модели более эффективно различать классы и снижает риск переобучения, что ведет к улучшению обобщающей способности на новых, ранее не встречавшихся данных.

Принцип схлопывания на уровне отдельных образцов (Sample-wise Alignment Collapse) является расширением концепции Neural Collapse, применяемой к каждому отдельному примеру данных. В то время как Neural Collapse описывает сближение представлений различных образцов в кластере в последнем слое нейронной сети, Sample-wise Alignment Collapse фокусируется на максимизации согласованности между векторным представлением конкретного образца и весами классификатора, отвечающими за его правильную классификацию. Это достигается путём минимизации расстояния между эмбеддингом образца и соответствующим вектором весов, что приводит к формированию более точных и устойчивых представлений, менее подверженных шуму и вариациям во входных данных. В результате, модель демонстрирует повышенную обобщающую способность и улучшенную производительность на невидимых данных.

Визуализация согласованности между эмбеддингами признаков и весами классификатора, осуществляемая с помощью методов снижения размерности, таких как t-SNE, позволяет оценить качество сформированного пространства признаков. Анализ распределения эмбеддингов в двух- или трехмерном пространстве помогает выявить кластеры, соответствующие различным классам, и оценить степень их разделенности. Низкая степень разделенности или наличие перекрывающихся кластеров указывает на проблемы в обучении модели и необходимость корректировки стратегии оптимизации, например, изменения архитектуры сети, параметров регуляризации или функции потерь. Таким образом, t-SNE выступает не только инструментом для визуального анализа, но и средством для направленной оптимизации процесса обучения.

Анализ сходимости векторных представлений признаков и весов классификатора показывает, что расхождение между ними приводит к снижению производительности.
Анализ сходимости векторных представлений признаков и весов классификатора показывает, что расхождение между ними приводит к снижению производительности.

NC-Guided TTA: Новая стратегия адаптации во время тестирования

Метод NC-Guided TTA представляет собой новую стратегию временной адаптации (TTA), использующую принципы нейронного коллапса для улучшения согласованности между признаками и классификатором во время инференса. Нейронный коллапс, наблюдаемый в хорошо обученных глубоких нейронных сетях, характеризуется сближением представлений признаков для различных классов в последнем слое, что способствует формированию более четких и различимых кластеров. NC-Guided TTA использует эти принципы, стремясь оптимизировать выравнивание признаков и классификатора, что позволяет модели более эффективно обобщать данные и повышать точность предсказаний на новых, ранее не встречавшихся входных данных без необходимости переобучения или использования размеченных тестовых данных.

Для количественной оценки соответствия признаков и классификатора в NC-Guided TTA используются метрики $G$-FCA Distance и $P$-FCA Distance, которые измеряют геометрическую близость и предсказательную уверенность соответственно. Оптимизация данного соответствия осуществляется посредством функций потерь, включающих $L2$ Loss для минимизации евклидова расстояния между векторами признаков и весами классификатора, Triplet Loss, направленную на увеличение различий между признаками разных классов, и InfoNCE Loss, максимизирующую взаимную информацию между признаками и их соответствующими метками. Комбинация этих метрик и функций потерь позволяет алгоритму эффективно адаптироваться к новым данным без необходимости переобучения или использования размеченных тестовых данных.

Метод NC-Guided TTA обеспечивает адаптацию к новым входным данным без необходимости трудоемкой переподготовки или использования размеченных тестовых данных, комбинируя геометрическую близость признаков с уверенностью предсказаний. В ходе тестирования на датасетах CIFAR-10-C и ImageNet-C, данный подход продемонстрировал среднюю точность в 78.30% и 66.61% соответственно, что указывает на его эффективность в условиях доменного сдвига и повышенного уровня шума.

В условиях гауссовского шума на ImageNet-C, метод NCTTA демонстрирует более высокую устойчивость и лучшую согласованность между признаками и классификатором, последовательно превосходя Tent и SAR по метрике dyid_{y_{i}}.
В условиях гауссовского шума на ImageNet-C, метод NCTTA демонстрирует более высокую устойчивость и лучшую согласованность между признаками и классификатором, последовательно превосходя Tent и SAR по метрике dyid_{y_{i}}.

К адаптивному и надёжному глубокому обучению

Метод NC-Guided TTA представляет собой значительный прогресс в области адаптации моделей во время тестирования. В отличие от традиционных подходов, требующих больших вычислительных затрат, данная стратегия обеспечивает эффективное повышение устойчивости моделей глубокого обучения к изменениям в данных. Основываясь на принципах нормализации и коррекции, NC-Guided TTA позволяет модели адаптироваться к новым условиям непосредственно во время работы, не требуя переобучения или тонкой настройки. Этот подход особенно важен в ситуациях, когда ресурсы ограничены, а необходимость в надежной и точной работе модели сохраняется, например, при использовании в мобильных устройствах или в условиях меняющейся окружающей среды. Таким образом, NC-Guided TTA открывает новые возможности для применения глубокого обучения в реальных задачах, требующих высокой адаптивности и устойчивости.

Исследование демонстрирует значительное превосходство предложенного метода адаптации во время тестирования (Test-Time Adaptation) над существующими подходами, такими как методы, основанные на регуляризации согласованности, адаптации слоев нормализации, минимизации энтропии или уточнении прототипов. В ходе экспериментов на наборе данных CTTA достигнута точность в 71.32%, что более чем на 10.36% превышает показатели метода Tent при использовании размера пакета равного 1. Такой существенный прирост в эффективности указывает на потенциал данной технологии для повышения надежности и устойчивости моделей глубокого обучения в реальных условиях, где данные могут значительно отличаться от тех, на которых модель была обучена.

Разработанный подход открывает новые возможности для внедрения моделей глубокого обучения в сложные и динамичные среды, где адаптивность и надёжность имеют первостепенное значение. В условиях, когда данные постоянно меняются, а условия эксплуатации отличаются от эталонных, традиционные модели часто демонстрируют снижение производительности. Данная методика, благодаря своей способности к адаптации в процессе тестирования, позволяет поддерживать высокую точность и устойчивость даже в нестабильных ситуациях. Это особенно важно для приложений, связанных с безопасностью, автономными системами и мониторингом в реальном времени, где сбои или неточности могут иметь серьёзные последствия. Возможность развёртывания надёжных и адаптируемых моделей в реальных условиях значительно расширяет сферу применения искусственного интеллекта и способствует созданию более интеллектуальных и автономных систем.

Визуализация t-SNE показывает, что NCTTA формирует более четкие и разделенные кластеры признаков по сравнению с Tent при добавлении гауссовского шума к CIFAR-10-C, что свидетельствует о повышении дискриминационной способности модели в условиях сильных искажений.
Визуализация t-SNE показывает, что NCTTA формирует более четкие и разделенные кластеры признаков по сравнению с Tent при добавлении гауссовского шума к CIFAR-10-C, что свидетельствует о повышении дискриминационной способности модели в условиях сильных искажений.

Исследование демонстрирует, что деградация производительности при адаптации к новым данным связана с нарушением выравнивания между векторными представлениями признаков и весами классификатора. Этот процесс, описанный в работе как нарушение принципов Neural Collapse на уровне отдельных образцов, подчеркивает важность детерминированного поведения алгоритмов. Как однажды заметила Фэй-Фэй Ли: «Искусственный интеллект должен быть направлен на расширение возможностей человека, а не на его замену». Данное исследование, фокусируясь на коррекции выравнивания признаков и классификаторов, стремится к созданию более надежных и предсказуемых систем, что согласуется с видением Фэй-Фэй Ли о полезности и ответственности в области искусственного интеллекта. По сути, коррекция выравнивания — это шаг к более доказуемым и воспроизводимым результатам, что является ключевым принципом в разработке алгоритмов.

Куда Далее?

Представленная работа, хоть и проливает свет на феномен «Neural Collapse» в контексте адаптации во время тестирования, оставляет ряд вопросов, требующих дальнейшего осмысления. Утверждение о взаимосвязи между выравниванием признаков и весов классификатора, безусловно, элегантно, но его универсальность требует более строгой проверки. Действительно ли это фундаментальное ограничение всех алгоритмов машинного обучения, или же специфическое свойство современных нейронных сетей? Доказательство этой гипотезы, а не просто демонстрация на конкретных датасетах, представляется задачей первостепенной важности.

Особый интерес вызывает понятие «самодвойственности», упомянутое в исследовании. Если действительно существует глубинная симметрия между пространством признаков и пространством весов, то это открывает принципиально новые возможности для разработки более устойчивых и обобщающих моделей. Однако, текущая работа лишь намекает на эту связь, оставляя без ответа вопрос о ее природе и механизмах реализации. Поиск инвариантных представлений, не зависящих от домена, представляется более перспективным путем, чем постоянная адаптация к меняющимся условиям.

В конечном счете, настоящая проверка предложенного метода NCTTA потребует его применения к задачам, далеким от классических бенчмарков. Истинная элегантность алгоритма проявляется не в его способности достигать высоких результатов на «удобных» данных, а в его устойчивости к непредсказуемым возмущениям и шумам. До тех пор, пока эта устойчивость не будет доказана, любые заявления о «решении проблемы доменного сдвига» следует воспринимать с должной долей скептицизма.


Оригинал статьи: https://arxiv.org/pdf/2512.10421.pdf

Связаться с автором: https://www.linkedin.com/in/avetisyan/

Смотрите также:

2025-12-14 19:12