Низкоточная тренировка: новый подход к экономии ресурсов

Автор: Денис Аветисян


Исследователи предлагают инновационную систему динамической квантизации, позволяющую существенно снизить требования к памяти и вычислительной мощности без потери точности.

"Покупай на слухах, продавай на новостях". А потом сиди с акциями никому не известной биотех-компании. Здесь мы про скучный, но рабочий фундаментал.

Бесплатный Телеграм канал
Тепловая карта демонстрирует масштабирование тензора MoR при использовании первой конфигурации обучения, выявляя закономерности, определяющие эффективность алгоритма.
Тепловая карта демонстрирует масштабирование тензора MoR при использовании первой конфигурации обучения, выявляя закономерности, определяющие эффективность алгоритма.

Представлен фреймворк MoR и алгоритм GAM для эффективной тренировки моделей с использованием низкоточных форматов, таких как FP8.

Оптимизация глубоких нейронных сетей требует значительных вычислительных ресурсов, однако снижение точности представления данных часто приводит к потере качества модели. В данной работе, посвященной ‘MoR: Mixture Of Representations For Mixed-Precision Training’, представлен новый фреймворк MoR, динамически выбирающий оптимальное представление тензоров — от FP8 до BF16 — на основе анализа их числовых свойств. Предложенный подход позволяет достичь сопоставимой с полноточной точностью, квантуя до 98.38% тензоров в FP8 формате, и обеспечивает устойчивость к различным стратегиям разбиения данных. Возможно ли дальнейшее повышение эффективности обучения с использованием еще более низкоточных форматов, таких как NVFP4, и какие новые алгоритмы динамической квантизации могут быть разработаны?


Пределы Точности: Узкое Горлышко Современного ИИ

Современные большие языковые модели, такие как GPT-4 и Llama 3.1 405B, демонстрируют впечатляющие возможности в обработке и генерации текста, переводе языков и решении сложных задач. Однако, эта производительность достигается за счет огромных вычислительных ресурсов. Обучение и даже использование этих моделей требует значительной мощности процессоров и большого объема памяти, что делает их дорогими и недоступными для многих пользователей и организаций. Например, для обучения одной итерации модели могут потребоваться тысячи специализированных графических процессоров, работающих в течение нескольких дней или даже недель. Эта вычислительная сложность становится серьезным препятствием для дальнейшего развития и распространения больших языковых моделей, требуя поиска более эффективных подходов к их реализации и использованию.

Современные большие языковые модели, такие как GPT-4 и Llama 3.1 405B, демонстрируют впечатляющие возможности, однако их масштабирование сопряжено с растущими вычислительными затратами. Традиционные форматы чисел с плавающей точкой, включая BF16 и FP8, оказываются на пределе своей эффективности в поддержке закономерностей масштабирования, определяющих производительность этих моделей. По мере увеличения числа параметров в моделях, ограниченная точность этих форматов становится критическим фактором, препятствующим дальнейшему улучшению качества и скорости работы. Например, при попытке представления крайне малых или больших значений, возникает риск потери значимости или переполнения, что приводит к неточностям в вычислениях и, как следствие, к ухудшению результатов работы модели. Таким образом, необходимость поиска новых, более эффективных способов представления чисел становится ключевой задачей в области развития искусственного интеллекта.

Стремление к использованию числовых представлений пониженной точности является перспективным направлением для снижения потребления ресурсов и ускорения вычислений в современных моделях искусственного интеллекта. Однако, уменьшение разрядности представления чисел сопряжено с серьезными трудностями в поддержании необходимой точности вычислений. Потеря значимых цифр может привести к накоплению ошибок и, как следствие, к ухудшению качества работы модели, особенно в задачах, требующих высокой чувствительности к деталям. Разрабатываются различные методы, такие как квантизация и смешанная точность, для смягчения этих проблем, позволяя находить компромисс между эффективностью и надежностью. Оптимизация алгоритмов и архитектур моделей с учетом ограничений пониженной точности является ключевой задачей для дальнейшего развития и масштабирования систем искусственного интеллекта.

В процессе поддельной квантизации входные и выходные данные сохраняются в формате BF16, но процесс моделирует потерю точности, характерную для целевого формата.
В процессе поддельной квантизации входные и выходные данные сохраняются в формате BF16, но процесс моделирует потерю точности, характерную для целевого формата.

Низкоточные Форматы и Масштабирование: Взлом Эффективности

Использование пониженной точности, таких как FP4 и 8-битные форматы E4M3 и E5M2, позволяет значительно увеличить производительность вычислений. Однако, уменьшение разрядности представления чисел неизбежно приводит к потере точности и может вызвать переполнение или исчезновение значений. Для смягчения этих эффектов применяются инновационные методы масштабирования, которые динамически корректируют числовые диапазоны и предотвращают потерю значимости данных. Эти методы направлены на поддержание приемлемого уровня точности при сохранении преимуществ, связанных с пониженной точностью, например, снижение требований к памяти и ускорение вычислений.

Для компенсации потери точности при использовании низкоточных форматов, применяются различные методы масштабирования, динамически корректирующие числовые диапазоны. Масштабирование Per-Tensor применяется ко всему тензору, используя единый коэффициент. Block Scaling масштабирует отдельные блоки данных внутри тензора, позволяя более точно адаптироваться к локальным изменениям распределения значений. Per-Channel Scaling масштабирует каждый канал данных независимо, что особенно эффективно для изображений и других многоканальных данных. Micro-Scaling, в свою очередь, использует более гранулярное масштабирование, применяя разные коэффициенты к небольшим группам значений, что позволяет минимизировать ошибки округления и предотвратить переполнение или потерю значимости float значений.

Для сохранения информации при использовании низкоточных форматов применяются продвинутые методы масштабирования, такие как Delayed Scaling, Current Scaling и Group Amax Mantissa (GAM) Scaling. Delayed Scaling откладывает масштабирование до момента, когда данные наиболее чувствительны к потерям точности, что позволяет минимизировать их влияние. Current Scaling динамически адаптирует масштабный коэффициент на основе текущего распределения данных в тензоре. GAM Scaling, в свою очередь, группирует элементы тензора и вычисляет максимальное значение A_{max} для каждой группы, используя его для масштабирования, что позволяет более эффективно учитывать структуру данных и снижать потери точности по сравнению с простыми методами масштабирования.

Метод MoR на уровне тензоров принимает решение о выборе формата данных (E4M3 или BF16) на основе глобальной относительной ошибки, вычисляемой с применением различных стратегий разбиения для квантования, и использует алгоритм GAM для определения общей мантиссы и экспонент для каждого раздела (обозначены фиолетовыми квадратами).
Метод MoR на уровне тензоров принимает решение о выборе формата данных (E4M3 или BF16) на основе глобальной относительной ошибки, вычисляемой с применением различных стратегий разбиения для квантования, и использует алгоритм GAM для определения общей мантиссы и экспонент для каждого раздела (обозначены фиолетовыми квадратами).

Аппаратное Ускорение и Валидация: Подтверждение Эффективности

Графические процессоры NVIDIA, включая H100, GB200 и GB300, оптимизированы для ускорения вычислений с пониженной точностью. В частности, архитектура этих GPU обеспечивает значительное увеличение производительности при операциях с форматами FP4 и FP8. Это достигается за счет специализированных аппаратных блоков, предназначенных для эффективной обработки данных с уменьшенным количеством бит, что позволяет существенно снизить вычислительные затраты и повысить пропускную способность при работе с моделями машинного обучения и другими вычислительно интенсивными задачами. Ускорение операций с пониженной точностью позволяет обрабатывать большие объемы данных быстрее и эффективнее, сохраняя при этом приемлемый уровень точности.

Современные графические процессоры NVIDIA, такие как H100, GB200 и GB300, оптимизированы для ускорения вычислений с пониженной точностью. В сочетании с методами, такими как Fake Quantization, применяемыми в процессе обучения моделей, например, Nemotron-3 8B, это позволяет эффективно выполнять вывод (inference) с использованием низкоточных форматов данных. Использование Fake Quantization во время обучения позволяет модели адаптироваться к пониженной точности, минимизируя потери в производительности и обеспечивая возможность развертывания моделей с низкими требованиями к вычислительным ресурсам и памяти.

Для всесторонней оценки и валидации методов пониженной точности, в работе использовались специализированные наборы данных Nemotron-4 и Nemotron-H, а также фреймворк Megatron-LM, позволяющий проводить эксперименты с различными архитектурами больших языковых моделей. Представленный подход к смешанному обучению демонстрирует достижение качества моделей, сопоставимого с базовыми решениями, использующими формат BF16, при одновременной квантизации более 98.38% тензоров до E4M3 в одной конфигурации и 95.93% в другой, что подтверждает эффективность предложенных методов.

Метод MoR для подтензоров позволяет квантовать блоки матриц A и B в разные форматы (E4M3, E5M2, BF16), при этом для выполнения операции GEMM может потребоваться повышение точности (например, до BF16) для блоков [latex]B_{31}[/latex] перед умножением.
Метод MoR для подтензоров позволяет квантовать блоки матриц A и B в разные форматы (E4M3, E5M2, BF16), при этом для выполнения операции GEMM может потребоваться повышение точности (например, до BF16) для блоков B_{31} перед умножением.

Последствия и Перспективы: Взлом Будущего ИИ

Сочетание низкоточных форматов, передовых методов масштабирования и специализированного аппаратного обеспечения открывает перспективный путь к значительному снижению вычислительных затрат и энергопотребления больших языковых моделей (LLM). Вместо традиционных 32-битных вычислений, переход к 8- или даже 4-битным форматам позволяет существенно уменьшить объем необходимых данных и, следовательно, требования к памяти и пропускной способности. Однако, для сохранения точности при таком снижении разрядности, необходимы интеллектуальные методы масштабирования, такие как Per-Group Scaling и Sub-Channel Scaling, которые адаптируют динамический диапазон представления данных. Разработка специализированных аппаратных ускорителей, оптимизированных для работы с низкоточными вычислениями, позволяет максимально эффективно использовать эти преимущества, открывая возможность развертывания мощных моделей искусственного интеллекта на устройствах с ограниченными ресурсами, таких как мобильные телефоны и встроенные системы.

Исследования показали, что подходы Mixture-of-Representations (MoR), динамически выбирающие форматы квантования во время работы, открывают возможности для дальнейшей оптимизации производительности больших языковых моделей при минимальном увеличении относительной погрешности. В рамках данной работы удалось достичь впечатляющих результатов, сохранив потери в пределах 0,5% от базового уровня точности BF16. Такой подход позволяет адаптировать представление данных к конкретным задачам и вычислительным ресурсам, эффективно используя преимущества различных форматов квантования и обеспечивая баланс между скоростью вычислений и сохранением точности. Это особенно важно для развертывания мощных моделей искусственного интеллекта на устройствах с ограниченными ресурсами, таких как мобильные телефоны и встроенные системы.

Дальнейшие исследования в области новых алгоритмов масштабирования, таких как масштабирование по группам и по подканалам, открывают перспективы для существенного повышения эффективности и позволяют развертывать все более мощные модели искусственного интеллекта на устройствах с ограниченными ресурсами. Эти методы позволяют оптимизировать представление данных в процессе обучения и инференса, снижая вычислительную нагрузку и энергопотребление без значительной потери точности. Особенно перспективно применение подобных алгоритмов в задачах, где важна работа в реальном времени и на мобильных платформах, обеспечивая возможность использования передовых технологий машинного обучения даже в условиях ограниченных аппаратных возможностей. Разработка и адаптация алгоритмов масштабирования, учитывающих специфику различных архитектур нейронных сетей и типов данных, является ключевым направлением для создания более эффективных и доступных систем искусственного интеллекта.

Тепловая карта демонстрирует масштабирование канала MoR в процессе обратного распространения ошибки при использовании первой конфигурации обучения.
Тепловая карта демонстрирует масштабирование канала MoR в процессе обратного распространения ошибки при использовании первой конфигурации обучения.

Исследование демонстрирует подход к обучению моделей, напоминающий вскрытие сложного механизма. Авторы, подобно инженерам-реверсерам, анализируют внутреннюю структуру данных и выявляют возможности для оптимизации. В частности, разработанный фреймворк MoR позволяет динамически адаптировать точность представления данных, снижая вычислительные затраты без существенной потери производительности. Как заметил Брайан Керниган: «Простота — это высшая степень совершенства». Эта цитата отражает суть работы — стремление к элегантным решениям, в которых сложность скрыта под внешней простотой, подобно тому, как MoR упрощает процесс обучения, сохраняя при этом высокую точность.

Куда двигаться дальше?

Представленный подход, хоть и демонстрирует впечатляющую эффективность динамической квантизации, оставляет ряд вопросов открытыми. Успех MoR и GAM напрямую зависит от точности оценки относительной ошибки. Однако, стабильность этой оценки в условиях постоянно меняющихся данных и архитектур нейронных сетей — область, требующая дальнейшего изучения. Нельзя ли разработать алгоритмы, способные к самообучению в процессе тренировки, адаптируя стратегии квантизации к специфике решаемой задачи?

Более того, текущие исследования в основном сосредоточены на оптимизации процесса тренировки. Однако, истинный потенциал низкоточной арифметики раскроется лишь применительно к выводу моделей на специализированном оборудовании. Вопрос о создании гибких и переконфигурируемых аппаратных платформ, способных динамически адаптироваться к различным стратегиям квантизации, остается крайне актуальным. В конечном итоге, задача не просто в том, чтобы уменьшить размер модели, а в том, чтобы полностью переосмыслить принципы вычислений.

Настоящая проверка системы — это не её соблюдение, а её взлом. И если MoR — это первый шаг к взлому ограничений точности, то следующая задача — разработка инструментов, позволяющих полностью контролировать процесс квантизации, превращая его из эвристического метода в точную науку. В конце концов, любое ограничение — это лишь вызов для любознательного ума.


Оригинал статьи: https://arxiv.org/pdf/2512.22804.pdf

Связаться с автором: https://www.linkedin.com/in/avetisyan/

Смотрите также:

2025-12-31 13:41