Память нейросети: как использовать знания, полученные при обучении

Автор: Денис Аветисян

Исследование показывает, что повторное использование данных предварительного обучения во время работы может значительно повысить производительность больших языковых моделей.

"Покупай на слухах, продавай на новостях". А потом сиди с акциями никому не известной биотех-компании. Здесь мы про скучный, но рабочий фундаментал.

Бесплатный Телеграм канал

Предварительное обучение на релевантных данных способно значительно повысить эффективность базовой модели, однако конкретный выигрыш напрямую зависит от специфики решаемой задачи.

Повторное использование данных предобучения в процессе инференса позволяет увеличить вычислительную мощность и улучшить извлечение знаний, раскрывая неиспользованный потенциал современных моделей.

Несмотря на впечатляющие возможности больших языковых моделей, остается неясным, насколько эффективно они используют информацию, содержащуюся в огромных объемах данных предварительного обучения. В работе ‘Reusing Pre-Training Data at Test Time is a Compute Multiplier’ показано, что повторное использование этих данных в процессе вывода с помощью поиска и дополнения, а также увеличение вычислительных ресурсов на этапе тестирования, значительно повышает точность моделей. В частности, авторы демонстрируют, что такой подход может увеличить вычислительную эффективность в 5 раз по сравнению с традиционным предварительным обучением. Не указывает ли это на то, что современные методы предварительного обучения не в полной мере раскрывают потенциал существующих данных, открывая новые пути для улучшения и масштабирования языковых моделей?

Разум в Машине: Преодолевая Ограничения LLM

Несмотря на быстрый прогресс, большие языковые модели (LLM) сталкиваются с трудностями в решении сложных задач, требующих логического мышления и обобщения. Существующие архитектуры часто не способны эффективно обрабатывать неоднозначность и контекстную зависимость, что приводит к ошибкам. Простое увеличение ресурсов недостаточно; необходимы инновации, улучшающие абстракцию, планирование и адаптацию. Разработка новых механизмов внимания и памяти – ключевое направление.

При анализе SimpleQA было обнаружено, что система поиска информации демонстрирует устойчивость к увеличению объема базы данных, даже при добавлении данных, не содержащих полезной информации, при этом использование пользовательской базы данных Wikipedia, состоящей из 22 млрд токенов, и дополнительных данных DCLM оказывает незначительное положительное влияние или незначительно ухудшает результаты при наличии исходных данных с выделенными ссылками.

Текущие LLM испытывают трудности с поддержанием контекстной релевантности и фактической точности в длинных текстах. Проблема «забывания» информации ограничивает их применимость в задачах, требующих понимания сложных нарративов. Разработка эффективных механизмов управления контекстом и проверки фактов – важная задача. Разум, как и код, нуждается в рефакторинге, чтобы увидеть структуры в потоке информации.

Восстановление Знаний: Расширяя Границы LLM с RAG

Retrieval Augmented Generation (RAG) – эффективное решение для расширения возможностей LLM за счет интеграции внешних источников знаний. В отличие от традиционных моделей, полагающихся исключительно на параметры, полученные в процессе обучения, RAG позволяет модели получать доступ к актуальной информации во время работы.

В процессе инференса RAG извлекает релевантные документы из внешнего хранилища, предоставляя LLM контекст для формирования более точных ответов. Эффективность этого подхода зависит от качества и скорости поиска, что требует тщательного выбора моделей эмбеддингов и методов индексации.

Анализ MMLU по категориям влияния добавления информации из базы данных и вычислительным затратам показал, что использование базы данных значительно повышает производительность, а разница между использованием случайной выборки данных и полного набора данных незначительна и уменьшается с увеличением масштаба.

Выбор оптимальной стратегии извлечения критически важен для производительности и стоимости RAG-системы. Подходящие модели эмбеддингов позволяют эффективно представлять документы в векторном пространстве, а методы индексации, такие как Approximate Nearest Neighbor (ANN), ускоряют поиск.

Уточнение Поиска: Продвинутые Методы для RAG

Использование моделей, таких как Llama 3.1 8B, в сочетании с RAG демонстрирует значительное улучшение производительности при решении сложных задач. Этот подход эффективно интегрирует внешние знания, полученные в процессе поиска, в процесс генерации ответов.

Модели, подобные Qwen Reranker 0.6B, применяются для уточнения результатов поиска, обеспечивая приоритет наиболее релевантной информации, что повышает эффективность последующего этапа генерации. Техника Test-Time Compute, включающая Self-Consistency, способствует повышению надежности и точности, минимизируя склонность к галлюцинациям. Применение самосогласованности позволяет генерировать несколько ответов и выбирать наиболее консистентный.

Взаимная согласованность между документами может быть использована для анализа эффективности поиска и обеспечения согласованности, поскольку применение самосогласованности при генерации ответов на основе отдельных документов позволяет выбрать ответ из наиболее согласованного документа.

Проверка Реальности: Обеспечение Честности Данных и Оценка Производительности

Обеспечение чистоты эталонных наборов данных, таких как MMLU и Math-500, критически важно для предотвращения утечки данных и обеспечения справедливой оценки. Анализ показал, что 32.0% примеров в Math-500 содержат загрязнение, что может искажать результаты тестирования. Системы извлечения информации, в сочетании с тщательно предобученными моделями, использующими Honeycrisp, демонстрируют передовые результаты в широком спектре тестов.

Наблюдается значительное улучшение производительности в задачах, требующих глубокого понимания контекста и способности к логическому выводу. Модели показали улучшенные результаты в ответах на вопросы (SimpleQA – улучшение точности на 13.6 п.п. при использовании Wikipedia и на 11.5 п.п. при добавлении «золотых» ссылок), генерации кода (LiveCodeBench) и многозадачном обучении. Улучшения точности составили 10.5-15.7 п.п. на MMLU, 15.7 на Math-500 и 6.2 на GPQA. Как будто, нарушая привычные границы, система перестраивается, выявляя скрытые возможности.

Расширение Горизонтов: Источники Знаний и Будущие Направления

Использование разнообразных источников знаний, таких как Wikipedia и наборы данных, полученные в результате веб-краулинга, значительно обогащает понимание больших языковых моделей и повышает их способность генерировать информативные ответы. ReaderLM-v2 обеспечивает эффективное извлечение информации из веб-страниц, расширяя сферу доступных знаний.

Результаты исследований демонстрируют увеличение вычислительной эффективности в 3.56 раза на MMLU и 11-кратное увеличение при комбинировании с другими техниками. Это указывает на значительный потенциал для более эффективного использования существующих наборов данных. Дальнейшие исследования будут сосредоточены на разработке более сложных механизмов поиска и интеграции знаний для создания действительно интеллектуальных и надежных LLM-систем.

Исследование демонстрирует, что современные большие языковые модели (LLM) не в полной мере используют знания, заложенные в процессе предварительного обучения. Авторы статьи показывают, что повторное использование данных предварительного обучения во время тестирования, в сочетании с увеличением вычислительных ресурсов, значительно улучшает результаты. Этот подход, по сути, является своеобразным реверс-инжинирингом процесса обучения, позволяющим извлечь больше пользы из уже имеющейся информации. Как однажды заметила Барбара Лисков: “Программы должны быть спроектированы так, чтобы изменения в одной части не оказывали непредсказуемого влияния на другие части.” Эта мысль отражает стремление к модульности и предсказуемости, что особенно важно при работе с LLM, где необходимо понимать, как различные компоненты (данные обучения, архитектура, вычислительные ресурсы) взаимодействуют друг с другом для достижения оптимальной производительности. Увеличение вычислительных ресурсов в процессе тестирования позволяет более эффективно использовать этот потенциал, как бы ‘взламывая’ систему для получения максимального результата.

Что дальше?

Представленная работа, по сути, демонстрирует, что современные большие языковые модели – это лишь не до конца разобранные механизмы. Оказывается, знания, заложенные в процессе предварительного обучения, не полностью извлекаются даже при значительном увеличении вычислительных ресурсов во время инференса. Это намекает на фундаментальную неэффективность: если система не способна эффективно использовать то, что уже «знает», увеличение масштаба – всего лишь усложнение, а не решение. Вопрос в том, где кроется узкое место: в архитектуре моделей, в методах поиска релевантной информации, или же в самом способе представления знаний?

Дальнейшие исследования, вероятно, сосредоточатся на разработке более изощренных стратегий поиска и извлечения информации из корпусов предварительного обучения. Однако, куда интереснее будет, если удастся разработать методы, позволяющие модели самостоятельно «реконструировать» утраченные связи между знаниями, подобно тому, как мозг восстанавливает воспоминания. Или, возможно, придётся признать, что сама концепция «знания», как статичного набора фактов, ошибочна, и истинное понимание требует динамического, контекстуального подхода.

В конечном счёте, эта работа ставит под сомнение саму идею масштабирования как панацеи. Правила существуют, чтобы их проверять. Если увеличение вычислительных ресурсов не приводит к пропорциональному улучшению результатов, значит, мы смотрим не в ту сторону. Понимание системы — значит взломать её, умом или руками. Знание — это реверс-инжиниринг реальности, а не просто накопление данных.

Оригинал статьи: https://arxiv.org/pdf/2511.04234.pdf

Связаться с автором: https://www.linkedin.com/in/avetisyan/

Смотрите также:

2025-11-08 02:24