Оптимизация данных для обучения больших языковых моделей: новый подход

Автор: Денис Аветисян


Исследователи разработали эффективный метод отбора данных для предварительного обучения, позволяющий одновременно учитывать качество и разнообразие наборов данных.

"Покупай на слухах, продавай на новостях". А потом сиди с акциями никому не известной биотех-компании. Здесь мы про скучный, но рабочий фундаментал.

Бесплатный Телеграм канал
Результаты показывают, что усредненная производительность модели плотности 1.5B на двенадцати задачах варьируется в зависимости от набора данных предварительного обучения: FineWeb, FineWeb-Semdedup, FineWeb-Edu, UltraFineWeb, FineWeb-DCLM и разработанного FineWeb-Mask, демонстрируя влияние выбора данных на эффективность обучения.
Результаты показывают, что усредненная производительность модели плотности 1.5B на двенадцати задачах варьируется в зависимости от набора данных предварительного обучения: FineWeb, FineWeb-Semdedup, FineWeb-Edu, UltraFineWeb, FineWeb-DCLM и разработанного FineWeb-Mask, демонстрируя влияние выбора данных на эффективность обучения.

Предложена структура DATAMASK, использующая обучение с подкреплением на основе градиентной политики для совместной оптимизации качества и разнообразия данных для предварительного обучения больших языковых моделей.

Несмотря на критическую важность отбора данных для предварительного обучения больших языковых моделей, одновременная оптимизация метрик качества и разнообразия представляется сложной задачей из-за высоких вычислительных затрат. В данной работе, ‘Joint Selection for Large-Scale Pre-Training Data via Policy Gradient-based Mask Learning’, представлен новый фреймворк DATAMASK, решающий эту проблему путем совместного обучения на основе масочного подхода и градиентных методов. Эксперименты на триллионах токенов показали, что DATAMASK значительно сокращает время отбора данных и обеспечивает существенное улучшение производительности моделей на различных задачах. Сможет ли DATAMASK стать стандартом де-факто для эффективного отбора данных в эпоху больших языковых моделей?


Узкое Горлышко Данных в Предварительном Обучении LLM

Для эффективного предварительного обучения больших языковых моделей (LLM), таких как те, что используют датасет FineWeb, требуется колоссальный объем данных, однако одного лишь масштаба недостаточно. Критически важным фактором является качество этих данных. Современные LLM способны извлекать знания из огромных текстовых корпусов, но если эти корпуса содержат избыточную или нерелевантную информацию, производительность модели существенно снижается, а вычислительные затраты возрастают. Высококачественный обучающий набор данных обеспечивает более быстрое обучение, улучшенную обобщающую способность и, в конечном итоге, более точные и полезные языковые модели. Таким образом, акцент смещается с простого увеличения объема данных к тщательному отбору и очистке информации, что становится ключевым фактором успеха в области LLM.

Существующие веб-корпуса, используемые для предварительного обучения больших языковых моделей, зачастую перенасыщены избыточными и некачественными примерами, что существенно ограничивает их эффективность. Повторяющиеся фрагменты текста и материалы с низкой информационной ценностью не только увеличивают вычислительные затраты на обучение, но и приводят к ухудшению обобщающей способности модели. Вместо того чтобы способствовать приобретению новых знаний, такие данные лишь утяжеляют процесс обучения и снижают способность модели к генерации осмысленного и релевантного контента. Таким образом, простого увеличения объема данных недостаточно; критически важно обеспечение их высокого качества и семантического разнообразия.

Попытки упростить процесс фильтрации данных для обучения больших языковых моделей часто приводят к компромиссу между объемом и разнообразием информации. Применение элементарных методов отбора, таких как удаление дубликатов или отсеивание текстов недостаточной длины, может значительно сократить размер обучающей выборки, но при этом неизбежно снижает ее семантическое богатство. В результате модель, обученная на подобном, хоть и более компактном, корпусе, демонстрирует ухудшенную способность к обобщению — она хуже справляется с задачами, требующими понимания нюансов языка и широкого кругозора. Таким образом, баланс между масштабом данных и их качественным разнообразием представляет собой ключевую проблему, ограничивающую потенциал современных языковых моделей.

Предварительное обучение плотной модели объемом 1.5B параметров на 400 миллиардах токенов, с использованием 500 случайных кластеров из FineWeb (приблизительно 500 миллиардов токенов), позволило выявить, что кластеризация с помощью алгоритма K-means[kmeans] и последующая выборка высококачественных данных (20% бюджета) демонстрирует улучшенные результаты по сравнению с использованием необработанных данных или DATAMASK, особенно в кластерах с выраженной семантической дубликацией.
Предварительное обучение плотной модели объемом 1.5B параметров на 400 миллиардах токенов, с использованием 500 случайных кластеров из FineWeb (приблизительно 500 миллиардов токенов), позволило выявить, что кластеризация с помощью алгоритма K-means[kmeans] и последующая выборка высококачественных данных (20% бюджета) демонстрирует улучшенные результаты по сравнению с использованием необработанных данных или DATAMASK, особенно в кластерах с выраженной семантической дубликацией.

DATAMASK: Интеллектуальный Отбор Данных для LLM

DATAMASK представляет собой новую структуру для отбора данных в больших масштабах, отличающуюся от традиционных методов, основанных на простой фильтрации. Вместо последовательного исключения данных по заданным критериям, DATAMASK использует подход, основанный на оптимизации. Это позволяет системе одновременно учитывать различные факторы, влияющие на качество и репрезентативность данных, и находить оптимальный поднабор данных для предварительного обучения больших языковых моделей (LLM). Вместо ручного задания пороговых значений или использования жестких правил, DATAMASK динамически адаптируется к характеристикам данных, что повышает эффективность и результативность процесса отбора.

В рамках DATAMASK, формирование подмножества данных для предварительного обучения больших языковых моделей (LLM) осуществляется с одновременным учетом как показателей качества, полученных из источников вроде DCLM и FineWeb-Edu, так и метрик разнообразия, таких как Pair-wise Similarity и DiSF. В отличие от традиционных методов, основанных на простой фильтрации, DATAMASK использует комбинированный подход, оценивая каждый элемент данных по обоим критериям. Показатели качества отражают релевантность и полезность данных для обучения, в то время как метрики разнообразия гарантируют, что выбранное подмножество представляет широкий спектр информации и избегает избыточности. Такой совместный анализ позволяет создавать более компактные и информативные наборы данных, оптимизированные для эффективного обучения LLM.

В рамках DATAMASK для эффективного поиска оптимального подмножества данных для предварительного обучения больших языковых моделей (LLM) используется метод оценки градиента политики (Policy Gradient Estimation). Этот подход позволяет исследовать обширное пространство возможных комбинаций данных, избегая полного перебора, что существенно снижает вычислительные затраты. Оценка градиента политики моделирует процесс выбора данных как последовательность действий, где каждая итерация направлена на максимизацию вознаграждения, определяемого качеством и разнообразием выбранных данных. В отличие от жадных алгоритмов, данный метод учитывает долгосрочные последствия каждого выбора, обеспечивая более оптимальное подмножество данных для обучения LLM.

Метод DATAMASK позволяет создавать более компактные и информативные наборы данных для предварительного обучения больших языковых моделей (LLM) по сравнению с традиционными подходами. Оптимизация, учитывающая как качество, так и разнообразие данных, значительно снижает вычислительные затраты без потери производительности. В частности, при использовании метрики DiSF, DATAMASK демонстрирует снижение времени отбора данных на 98.9% по сравнению с жадными алгоритмами, что позволяет значительно ускорить процесс подготовки обучающих данных и снизить потребность в вычислительных ресурсах.

Оптимизация с использованием DATAMASK показала, что совместная оптимизация метрик качества и разнообразия (синие и красные линии) обеспечивает более высокие результаты по сравнению с оптимизацией только по разнообразию (зеленые и черные линии), особенно при инициализации с учетом качества образцов.
Оптимизация с использованием DATAMASK показала, что совместная оптимизация метрик качества и разнообразия (синие и красные линии) обеспечивает более высокие результаты по сравнению с оптимизацией только по разнообразию (зеленые и черные линии), особенно при инициализации с учетом качества образцов.

Создание FineWeb-Mask: Практический Пример Оптимизации Данных

Набор данных FineWeb-Mask, состоящий из 1,5 триллионов токенов и являющийся подмножеством FineWeb, был создан с использованием фреймворка DATAMASK. DATAMASK представляет собой систему для оптимизации наборов данных путем интеллектуального отбора наиболее информативных и разнообразных данных. Создание FineWeb-Mask демонстрирует практическое применение DATAMASK для эффективной подготовки обучающих данных, позволяя снизить вычислительные затраты и повысить качество обучения моделей обработки естественного языка. Этот подход позволяет создать более компактный, но репрезентативный набор данных, сохраняя при этом или даже улучшая производительность модели.

В процессе отбора данных для FineWeb-Mask применялись методы кластеризации K-means и семантической дедупликации Semdedup. K-means использовался для группировки документов по темам, обеспечивая разнообразие представленных в наборе данных областей знаний. Semdedup, в свою очередь, удалял семантически похожие документы, минимизируя избыточность и повышая информативность данных. Комбинация этих методов позволила создать более качественный и репрезентативный набор данных для предварительного обучения языковой модели, улучшив её обобщающую способность и эффективность.

Для предварительного обучения модели Qwen-2.5-1.5B была использована отобранная подмножество данных FineWeb-Mask. В процессе обучения применялась архитектура Mixture of Experts (MoE), позволяющая модели эффективно распределять вычислительные ресурсы и специализироваться на различных аспектах данных. Данная архитектура предполагает использование нескольких «экспертов», каждый из которых отвечает за обработку определенной части входных данных, что способствует повышению производительности и масштабируемости модели.

Использование подхода к целевому отбору данных в рамках проекта FineWeb-Mask позволило добиться повышения эффективности предварительного обучения моделей. В ходе экспериментов было установлено, что обучение модели Qwen-2.5-1.5B, основанной на плотном (dense) представлении, продемонстрировало улучшение производительности на 0.9% по сравнению с лучшим базовым показателем, полученным при использовании полного набора данных FineWeb. Аналогично, модель Qwen-2.5-7B, использующая архитектуру Mixture of Experts (MoE), показала прирост производительности в 0.4% при обучении на оптимизированном подмножестве данных.

Распределение длины токенов в FineWeb-Mask демонстрирует отличия от FineWeb и FineWeb-Edu, указывая на специфические характеристики токенизации в данной модели.
Распределение длины токенов в FineWeb-Mask демонстрирует отличия от FineWeb и FineWeb-Edu, указывая на специфические характеристики токенизации в данной модели.

Влияние и Перспективы Развития Управления Данными для LLM

Разработка DATAMASK и, как следствие, создание набора данных FineWeb-Mask продемонстрировали значительный потенциал в снижении вычислительных затрат, необходимых для предварительного обучения больших языковых моделей. Этот подход, основанный на тщательном отборе данных и исключении избыточной информации, позволяет добиться сопоставимых, а в некоторых случаях и превосходящих результатов, используя значительно меньше ресурсов. Эффективность DATAMASK заключается в оптимизации процесса обучения, позволяя моделям быстрее сходиться и достигать желаемого уровня производительности при меньших затратах энергии и времени. Данные достижения открывают новые возможности для более устойчивого и доступного развития искусственного интеллекта, делая передовые языковые модели доступными для более широкого круга исследователей и организаций.

Подход, основанный на акцентировании внимания на качестве и разнообразии данных, открывает новые перспективы для устойчивого и доступного развития больших языковых моделей. Традиционно, обучение таких моделей требует колоссальных вычислительных ресурсов и огромных объемов данных, что ограничивает возможности для исследователей и организаций с ограниченными ресурсами. Сосредоточение на тщательно отобранных, высококачественных данных, представляющих широкий спектр информации, позволяет добиться сопоставимых, а в некоторых случаях и превосходящих результатов, при значительно меньших затратах. Это не только снижает экологическую нагрузку, связанную с обучением моделей, но и способствует демократизации доступа к передовым технологиям обработки естественного языка, позволяя большему числу участников внести свой вклад в развитие этой области.

Принципы, лежащие в основе подхода DATAMASK, демонстрируют свою универсальность и применимость в широком спектре сценариев предварительного обучения больших языковых моделей. Исследования показали, что оптимизация наборов данных с акцентом на разнообразие и качество позволяет не только существенно снизить вычислительные затраты, но и повысить эффективность обучения. В частности, применение DATAMASK к модели размером 1.5 миллиарда параметров привело к улучшению производительности на 3.2% в среднем по двенадцати различным задачам, если сравнивать с использованием набора данных FineWeb. Данный результат подтверждает перспективность подхода и указывает на возможность достижения новых уровней производительности и энергоэффективности в области разработки и обучения больших языковых моделей.

Перспективные исследования в области управления данными для больших языковых моделей (LLM) направлены на разработку более сложных метрик разнообразия и алгоритмов оптимизации. Эти усовершенствования позволят значительно повысить эффективность отбора данных для предварительного обучения. Вместо использования простых показателей, будущие алгоритмы будут учитывать семантическую близость, информационное содержание и репрезентативность данных, что позволит создавать более сбалансированные и информативные наборы данных. Оптимизационные алгоритмы, в свою очередь, будут стремиться к поиску оптимального компромисса между размером набора данных, его разнообразием и вычислительными затратами, что позволит создавать более мощные и эффективные LLM при ограниченных ресурсах. Такой подход позволит не только улучшить производительность существующих моделей, но и открыть возможности для разработки новых, более специализированных LLM, адаптированных к конкретным задачам и доменам.

Методы, ориентированные на качество, отдают предпочтение более длинным документам, в то время как методы, основанные на разнообразии, выбирают более короткие тексты.
Методы, ориентированные на качество, отдают предпочтение более длинным документам, в то время как методы, основанные на разнообразии, выбирают более короткие тексты.

Исследование демонстрирует, что традиционные подходы к отбору данных для обучения больших языковых моделей часто упускают из виду комплексность задачи. Авторы предлагают DATAMASK — систему, стремящуюся к одновременной оптимизации качества и разнообразия данных, что соответствует философии поиска системных уязвимостей для лучшего понимания. Как заметил Винтон Серф: «Технологии — это лишь инструменты. Главное — то, как мы их используем». Этот принцип находит отражение в DATAMASK, где инструменты оптимизации данных направлены не на слепое увеличение объёма, а на осознанный выбор наиболее информативных и разнообразных примеров, что способствует более глубокому освоению языковой модели и её способности к генерации осмысленного текста.

Куда Ведет Дорога?

Представленный подход, фокусируясь на совместной оптимизации качества и разнообразия данных для предварительного обучения больших языковых моделей, лишь обнажает глубину проблемы. По сути, DATAMASK — это элегантная попытка обуздать хаос, но хаос, как известно, не любит ошейники. Вопрос не в том, чтобы найти «лучшие» данные, а в том, как определить, что вообще означает «лучший» в контексте постоянно эволюционирующей нейронной сети. Оптимизация по метрикам, какими бы продуманными они ни были, всегда будет лишь приближением к истинной ценности данных, ценности, определяемой не человеком, а самой моделью в процессе обучения.

Дальнейшие исследования неизбежно потребуют отхода от статичных наборов данных. Динамическая выборка, где данные отбираются и взвешиваются в реальном времени, в зависимости от прогресса обучения модели, представляется более перспективным направлением. Кроме того, необходимо изучить возможность использования обратной связи от модели для уточнения критериев выбора данных — своего рода самообучающийся алгоритм отбора, взламывающий систему изнутри. Иначе говоря, позволить модели самой определить, что ей нужно, а не пытаться предсказать это заранее.

В конечном итоге, DATAMASK — это не столько решение, сколько приглашение к эксперименту. Приглашение усомниться в общепринятых подходах, переосмыслить понятие «качества» данных и признать, что истинное понимание достигается не через контроль, а через исследование границ возможного. Обучение моделей — это всегда акт взлома реальности, и лишь постоянный поиск новых путей позволит нам приблизиться к ее пониманию.


Оригинал статьи: https://arxiv.org/pdf/2512.24265.pdf

Связаться с автором: https://www.linkedin.com/in/avetisyan/

Смотрите также:

2026-01-04 15:07