Ансамбли глубокого обучения: новый подход к оптимизации и калибровке

Автор: Денис Аветисян


Исследование показывает, что совместная оптимизация ансамблей глубокого обучения превосходит традиционные методы, улучшая точность и калибровку.

"Покупай на слухах, продавай на новостях". А потом сиди с акциями никому не известной биотех-компании. Здесь мы про скучный, но рабочий фундаментал.

Бесплатный Телеграм канал
Результаты тестирования ансамбля моделей – Wide ResNet, Graph Convolutional Network, Multi-Layer Perceptron и Bidirectional Long Short-Term Memory – демонстрируют, что применение различных подходов к температурной калибровке позволяет оптимизировать точность прогнозов, снижая ошибку ожидательной калибровки (ECE) и приближая результаты к эталонным, представленным на рисунке 2, несмотря на неизбежные погрешности, связанные с практическим применением даже самых элегантных алгоритмов.
Результаты тестирования ансамбля моделей – Wide ResNet, Graph Convolutional Network, Multi-Layer Perceptron и Bidirectional Long Short-Term Memory – демонстрируют, что применение различных подходов к температурной калибровке позволяет оптимизировать точность прогнозов, снижая ошибку ожидательной калибровки (ECE) и приближая результаты к эталонным, представленным на рисунке 2, несмотря на неизбежные погрешности, связанные с практическим применением даже самых элегантных алгоритмов.

В данной работе предложен метод совместной регуляризации и калибровки ансамблей глубокого обучения, позволяющий минимизировать разрыв оптимальности и предотвратить утечку данных.

Несмотря на широкое применение ансамблей глубокого обучения для повышения точности и калибровки моделей, традиционно каждый член ансамбля оптимизируется независимо. В работе ‘On Joint Regularization and Calibration in Deep Ensembles’ исследуется влияние совместной оптимизации параметров регуляризации, таких как затухание весов, температурная шкала и ранняя остановка, на производительность и калибровку ансамбля. Результаты показывают, что совместная оптимизация, в сочетании с предложенной стратегией частичного перекрытия валидационных выборок, позволяет достичь сопоставимых или более высоких результатов, чем независимая оптимизация. Какие преимущества могут быть получены от дальнейшей разработки методов совместной оптимизации ансамблей глубокого обучения и как это повлияет на практическое применение таких моделей?


Иллюзия Оптимальности: Когда Ансамбль Не Превосходит Сумму Частей

Несмотря на достижение высоких показателей отдельными моделями, простое усреднение не гарантирует оптимальных результатов для ансамбля. Часто наблюдается разрыв между потенциальной и реальной производительностью. Традиционные методы оптимизации фокусируются на индивидуальных параметрах, игнорируя синергию между моделями. Это ограничивает возможности коллективного обучения и приводит к субоптимальным результатам. Наблюдаемое несоответствие подчеркивает необходимость оптимизации коллективного поведения, а не только отдельных компонентов, что подтверждается улучшением результатов при использовании моделей WRN, GCN, MLP и BiLSTM.

Тестирование производительности усредненных моделей ансамбля показывает, что различные стратегии ранней остановки оказывают влияние на результаты, сопоставимые с представленными на рисунке 3 (WRN: Wide ResNet; GCN: Graph Convolutional Network; MLP: Multi-Layer Perceptron; BILSTM: Bidirectional Long Short-Term Memory; NLL: negative log-likelihood; ECE: expected calibration error).
Тестирование производительности усредненных моделей ансамбля показывает, что различные стратегии ранней остановки оказывают влияние на результаты, сопоставимые с представленными на рисунке 3 (WRN: Wide ResNet; GCN: Graph Convolutional Network; MLP: Multi-Layer Perceptron; BILSTM: Bidirectional Long Short-Term Memory; NLL: negative log-likelihood; ECE: expected calibration error).

В конечном счете, каждая новая оптимизация — лишь очередная обёртка над старыми ошибками.

BatchEnsemble: Эффективность Параметров и Иллюзия Разнообразия

Метод ‘BatchEnsemble’ предлагает снижение вычислительных затрат при построении ансамблей глубоких нейронных сетей за счёт общих весов. Это значительно уменьшает количество параметров по сравнению с традиционными подходами. Эффективная инициализация весов критически важна для обеспечения разнообразия ансамбля и предотвращения утечки данных. Эксперименты показали, что ‘Random Sign Initialization’ превосходит ‘Gaussian Initialization’, обеспечивая более широкое распределение начальных весов и более разнообразные модели.

Анализ стратегий ранней остановки для полного ансамбля демонстрирует, что эпоха остановки, нормализованная по шагам обучения, коррелирует с разнообразием ансамбля и предсказательной энтропией (WRN: Wide ResNet; GCN: Graph Convolutional Network; MLP: Multi-Layer Perceptron; BiLSTM: Bidirectional Long Short-Term Memory).
Анализ стратегий ранней остановки для полного ансамбля демонстрирует, что эпоха остановки, нормализованная по шагам обучения, коррелирует с разнообразием ансамбля и предсказательной энтропией (WRN: Wide ResNet; GCN: Graph Convolutional Network; MLP: Multi-Layer Perceptron; BiLSTM: Bidirectional Long Short-Term Memory).

Комбинируя общие и специфические веса, ‘BatchEnsemble’ достигает высокой производительности при меньшем количестве параметров. Это подтверждено на CIFAR-10, NCI1, Covertype и AG News, где наблюдалось снижение ошибки классификации.

Валидация Ансамбля: Искусство Удержания от Переобучения

Эффективная валидация критически важна для обобщающей способности моделей. Стратегии, такие как ‘Shared Holdout Validation’, ‘Disjoint Holdout Validation’ и ‘Overlapping Holdout Validation’, обладают уникальными преимуществами в зависимости от данных и задач. Регуляризация, в частности, ‘Early Stopping’ и ‘Weight Decay Tuning’, дополнительно повышает обобщающую способность, предотвращая переобучение. Комбинация этих стратегий с архитектурой BatchEnsemble демонстрирует стабильно высокие результаты, например, снижение ошибки классификации и улучшение NLL на датасете ‘CIFAR-10’ с использованием ‘WRN-16-4’.

Оценка производительности полного ансамбля при ранней остановке (M=4 для WRN и GCN; M=8 для MLP и BiLSTM) показывает, что различные стратегии ранней остановки оказывают сопоставимое влияние на результаты для всех типов holdout (WRN: Wide ResNet; GCN: Graph Convolutional Network; MLP: Multi-Layer Perceptron; BiLSTM: Bidirectional Long Short-Term Memory; NLL: negative log-likelihood; ECE: expected calibration error).
Оценка производительности полного ансамбля при ранней остановке (M=4 для WRN и GCN; M=8 для MLP и BiLSTM) показывает, что различные стратегии ранней остановки оказывают сопоставимое влияние на результаты для всех типов holdout (WRN: Wide ResNet; GCN: Graph Convolutional Network; MLP: Multi-Layer Perceptron; BiLSTM: Bidirectional Long Short-Term Memory; NLL: negative log-likelihood; ECE: expected calibration error).

Калибровка и Доверие: Когда Вероятности Соответствуют Реальности

Калибровка моделей критически важна для обеспечения надежности предсказаний. Некорректная калибровка может привести к переоценке или недооценке уверенности модели. Метод температурной калибровки (Temperature Scaling) улучшает калибровку путем перемасштабирования логитов с использованием функции потерь NLL. Максимизация калибровки и минимизация ECE позволяют создавать более надежные ансамбли, вызывающие больше доверия. Наблюдалось улучшение результатов на моделях WRN, MLP и BiLSTM, однако эффективность зависела от конкретной задачи.

Сравнение двух стратегий совместной температурной калибровки показывает, что калибровка логитов моделей до усреднения (метод C inrahamanUncertaintyQuantificationDeep2021) и калибровка лог-вероятностей ансамбля после усреднения (метод D) приводят к почти идентичным температурам, минимизирующим NLL, при этом калибровка логитов может незначительно изменить ошибку классификации, в то время как калибровка лог-вероятностей сохраняет ее, обеспечивая схожие результаты по NLL и ECE.
Сравнение двух стратегий совместной температурной калибровки показывает, что калибровка логитов моделей до усреднения (метод C inrahamanUncertaintyQuantificationDeep2021) и калибровка лог-вероятностей ансамбля после усреднения (метод D) приводят к почти идентичным температурам, минимизирующим NLL, при этом калибровка логитов может незначительно изменить ошибку классификации, в то время как калибровка лог-вероятностей сохраняет ее, обеспечивая схожие результаты по NLL и ECE.

Каждая попытка отладить систему – это лишь временное облегчение симптомов, а не избавление от болезни.

Исследование показывает, что оптимизация глубоких ансамблей как единого целого даёт ощутимые результаты, закрывая разрыв в оптимальности ансамбля. Похоже, что и в этой области, как и во многих других, попытки создать идеальную систему наталкиваются на суровую реальность. Карл Фридрих Гаусс однажды заметил: «Если бы другие знали, сколько труда я вложил в кажущуюся легкость моих открытий, они бы не так удивлялись». В контексте данной работы, эта фраза звучит особенно проницательно. Поиск наилучшей стратегии валидации и совместной оптимизации – процесс трудоёмкий, требующий внимательного анализа и экспериментов. В конечном итоге, даже самые элегантные теоретические построения сталкиваются с необходимостью практической реализации и отладки, а багтрекер неизбежно заполняется записями о боли.

Что дальше?

Представленная работа, как и большинство, лишь аккуратно подгоняет очередную ручку в сложном механизме глубокого обучения. Улучшение ансамблей, конечно, приятно, но не стоит обольщаться. Всё это – лишь временное снижение энтропии перед неминуемым возвращением к хаосу. Оптимизация ансамбля как единого целого – логичный шаг, но он не решает фундаментальной проблемы: каждая «революционная» архитектура рано или поздно упирается в ограничения данных и вычислительных ресурсов. По сути, это просто более изощренный способ борьбы с переобучением.

Наиболее интересной задачей, вероятно, остаётся борьба с утечкой информации – данная работа лишь констатирует её влияние, не предлагая радикальных решений. Проверка валидации и стратегии ранней остановки, безусловно, важны, но в реальности всё сводится к эмпирическому подбору гиперпараметров, пока продакшен не выявит скрытые закономерности в данных, которые никто не предвидел. Вспомните, как всё «работало», пока не пришёл agile, и как быстро «оптимальные» модели оказывались бесполезными в реальных условиях.

В конечном итоге, всё новое – это просто старое с худшей документацией. Вероятно, будущее за автоматизированными системами, которые будут сами подбирать архитектуры и стратегии обучения, но и они не избавят от необходимости ручного вмешательства. Оптимизация – это бесконечный процесс, и, как показывает опыт, каждая победа – это лишь новая отправная точка для следующей проблемы.


Оригинал статьи: https://arxiv.org/pdf/2511.04160.pdf

Связаться с автором: https://www.linkedin.com/in/avetisyan/

Смотрите также:

2025-11-09 15:34