Оптимизация данных для обучения больших языковых моделей: новый подход

Результаты показывают, что усредненная производительность модели плотности 1.5B на двенадцати задачах варьируется в зависимости от набора данных предварительного обучения: FineWeb, FineWeb-Semdedup, FineWeb-Edu, UltraFineWeb, FineWeb-DCLM и разработанного FineWeb-Mask, демонстрируя влияние выбора данных на эффективность обучения.

Исследователи разработали эффективный метод отбора данных для предварительного обучения, позволяющий одновременно учитывать качество и разнообразие наборов данных.

Оптимизация сетевых проектов: новые границы эффективности

Исследование предлагает усовершенствованные методы решения задач многокоммодного проектирования сетей с ограничениями на неделимость потока, позволяющие существенно повысить качество решений.