Обучение взаимодействующих языковых моделей: новый подход к оптимизации

Автор: Денис Аветисян

Исследователи предлагают метод, позволяющий улучшить работу систем, состоящих из нескольких больших языковых моделей, путем более точного распределения вклада каждого агента в общий результат.

"Покупай на слухах, продавай на новостях". А потом сиди с акциями никому не известной биотех-компании. Здесь мы про скучный, но рабочий фундаментал.

Бесплатный Телеграм канал

Оптимизация запросов посредством направленного анализа вклада позволяет выявлять ключевые этапы и роли в многоагентном процессе рассуждений, целенаправленно улучшая слабые звенья при сохранении эффективности сильных, что демонстрируется на примере задачи планирования туристического маршрута и выражается в последовательном уточнении системного состояния [latex]S_r[/latex] и временных весов вклада. — Оптимизация запросов посредством направленного анализа вклада позволяет выявлять ключевые этапы и роли в многоагентном процессе рассуждений, целенаправленно улучшая слабые звенья при сохранении эффективности сильных, что демонстрируется на примере задачи планирования туристического маршрута и выражается в последовательном уточнении системного состояния $S_r$ и временных весов вклада.

Предложенный подход объединяет временное и структурное распределение заслуг для оптимизации запросов в многоагентных системах, основанных на больших языковых моделях, без изменения параметров самих моделей.

Оптимизация многоагентных систем, основанных на больших языковых моделях, сталкивается с трудностями при отнесении ответственности за неудачи к конкретным компонентам и этапам взаимодействия. В работе ‘Unifying Temporal and Structural Credit Assignment in LLM-Based Multi-Agent Prompt Optimization’ предложен подход, направленный на решение этой проблемы путем разделения сигнала ошибки по времени и структуре, что позволяет целенаправленно улучшать подсказки агентов. Разработанный метод, использующий узкие места в пространстве состояний и стационарные ролевые политики, значительно снижает сложность запросов и повышает производительность без изменения параметров моделей. Можно ли с помощью подобного подхода создать самообучающиеся многоагентные системы, способные к эффективному решению сложных задач?

Вызов Рассуждений в Больших Языковых Моделях

Несмотря на впечатляющую способность больших языковых моделей распознавать закономерности в данных, подлинное рассуждение, особенно решение многоступенчатых задач, продолжает оставаться сложной проблемой. Эти модели демонстрируют успехи в предсказании следующего слова или фразы, опираясь на статистические вероятности, но испытывают трудности при столкновении с ситуациями, требующими логического вывода, планирования или абстрактного мышления. В отличие от человека, способного анализировать проблему, выделять ключевые компоненты и последовательно применять правила, языковые модели часто полагаются на поверхностные связи и ассоциации, что приводит к ошибкам в более сложных сценариях. Способность к настоящему рассуждению подразумевает не просто запоминание информации, но и умение применять её в новых, непредсказуемых ситуациях, что требует качественно новых архитектурных решений.

Несмотря на впечатляющий прогресс в области больших языковых моделей, простое увеличение их размера демонстрирует закономерное снижение эффективности. Исследования показывают, что дальнейшее наращивание параметров не приводит к пропорциональному улучшению способности к рассуждениям и решению сложных задач. Это указывает на необходимость принципиально новых архитектурных подходов, выходящих за рамки традиционного масштабирования. Вместо слепого увеличения объема данных и параметров, разработчики все чаще обращаются к инновационным методам, направленным на повышение способности моделей к логическому мышлению, абстракции и пониманию контекста. Такой подход позволит преодолеть ограничения, связанные с простым накоплением информации, и приблизиться к созданию действительно интеллектуальных систем.

В процессе оптимизации предложенный подход демонстрирует более быструю сходимость и достигает более высокой точности по сравнению с DSPy MIPRO и базовым методом.

Многоагентные Системы: Новый Подход к Рассуждениям

Многоагентные системы (МАС) реализуют декомпозицию сложных задач на более мелкие, управляемые роли, что аналогично принципу разделения труда, наблюдаемому в биологических системах. Этот подход предполагает разделение общей задачи на подзадачи, каждая из которых решается отдельным агентом, специализирующимся на конкретной функции. Такое разделение позволяет повысить эффективность за счет параллельного выполнения подзадач и снижения когнитивной нагрузки на каждый отдельный агент. Аналогия с биологическими системами заключается в том, что различные органы и клетки выполняют специализированные функции, способствуя функционированию организма в целом, подобно тому, как агенты в МАС совместно работают для достижения общей цели.

Подход, заключающийся в декомпозиции сложных задач на более мелкие подзадачи, позволяет существенно повысить эффективность рассуждений за счет концентрации вычислительных ресурсов на конкретных участках проблемы. Это достигается путем распределения ответственности между отдельными агентами, каждый из которых специализируется на решении определенной подзадачи. Такая структура естественным образом облегчает процесс определения вклада каждого агента в общий результат, позволяя точно оценить и вознаградить его работу. В результате, система может более эффективно использовать доступные ресурсы и быстрее достигать поставленных целей, чем при монолитном подходе к решению задач.

Ключевым элементом данной архитектуры является модуль агрегации, создающий так называемое “узкое место в пространстве состояний” (State-Space Bottleneck). Этот модуль выполняет функцию фильтрации и консолидации информации, поступающей от различных агентов системы. Ограничивая объем передаваемой информации, модуль агрегации упрощает процесс атрибуции вклада каждого агента в общий результат, что необходимо для обучения и оптимизации системы. Суть заключается в том, что только релевантная и сжатая информация передается для принятия решений, что снижает вычислительную сложность и повышает эффективность распределения ответственности.

Оптимизация с учетом как временной, так и структурной информации позволяет добиться наибольшего прироста производительности LLaMA3-8B в задачах MedMCQA и MMLU, в то время как использование только временной или структурной информации дает менее заметные улучшения по сравнению с базовым уровнем.

Оптимизация Взаимодействия Агентов и Распределение Заслуг

Проблема распределения заслуг (Credit Assignment Problem) в многоагентных системах решается посредством методов, таких как структурное распределение заслуг (Structural Credit Assignment). Этот подход признает, что каждый агент выполняет определенную, присущую ему роль в общей системе. Вместо того, чтобы рассматривать всех агентов как взаимозаменяемые единицы, структурное распределение заслуг учитывает специфическую функцию и вклад каждого агента в конечный результат. Это позволяет более точно определить, какой агент в большей степени ответственен за успех или неудачу, и, соответственно, скорректировать его поведение для повышения общей эффективности системы. Такой подход позволяет избежать неверного атрибутирования заслуг и обеспечить более справедливое и эффективное обучение агентов.

Для дальнейшей оптимизации поведения агентов используется метод блочного координатного спуска (Block Coordinate Descent), который предполагает итеративную оптимизацию двух типов подсказок: “Ролевых подсказок” (Role Prompts), определяющих поведение отдельных агентов, и “Подсказок агрегации” (Aggregation Prompts), управляющих процессом объединения результатов работы нескольких агентов. Данный метод предполагает последовательную оптимизацию каждой группы подсказок при фиксации другой, что позволяет находить оптимальные значения параметров, улучшающие общую производительность системы. Итеративный процесс продолжается до достижения сходимости, когда дальнейшие изменения в подсказках не приводят к существенному улучшению результатов.

Для оценки работы агентов и формирования сигналов обратной связи для обучения используется система, основанная на больших языковых моделях (LLM) в роли критиков и текстовых градиентах. LLM-критик анализирует выходные данные агента, предоставляя количественную оценку их качества. Текстовые градиенты, в свою очередь, вычисляются на основе анализа выходных данных LLM-критика, позволяя определить, какие аспекты ответа агента наиболее сильно влияют на итоговую оценку. Этот подход позволяет формировать детализированные сигналы обучения, направленные на улучшение конкретных аспектов поведения агентов, без необходимости ручной разметки данных или разработки сложных функций вознаграждения.

Демонстрация Общих Рассуждений на Различных Эталонных Задачах

Предложенный фреймворк MAS, реализованный в DSPy и использующий MIPRO, демонстрирует выдающиеся результаты на сложных эталонных задачах, требующих рассуждений. Этот подход позволяет значительно улучшить способность языковых моделей к логическому мышлению и решению проблем. В ходе экспериментов система показала высокую эффективность в различных областях знаний, успешно справляясь с задачами, требующими анализа, синтеза и вывода. Уникальность фреймворка заключается в его способности оптимизировать процесс рассуждений, позволяя моделям генерировать более точные и обоснованные ответы, что подтверждено результатами, полученными на различных бенчмарках.

Исследования показали, что разработанная оптимизационная система, применяющаяся в рамках DSPy и использующая MIPRO, демонстрирует впечатляющую способность к обобщению знаний в различных областях. Оценки на таких наборах данных, как ‘AQuA’, ‘MedMCQA’, ‘GPQA’ и ‘MMLU’, подтверждают эту универсальность. Особенно заметен прогресс в решении медицинских вопросов: при использовании модели LLaMA3-8B точность ответов на вопросы из набора ‘MedMCQA’ увеличилась на целых 7.0%. Это свидетельствует о потенциале системы в задачах, требующих глубокого понимания и применения специализированных знаний, а также о ее способности эффективно адаптироваться к различным типам вопросов и форматам данных.

В рамках оптимизационного процесса, разработанное ограничение «Стационарной Политики» играет ключевую роль в поддержании стабильности системы и обеспечении согласованности её поведения. Внедрение данного ограничения позволило добиться повышения точности на 2.1% в задачах GPQA при использовании модели Qwen2.5-7B. Более того, при оценке на 500 вопросах из набора данных MMLU, система продемонстрировала способность давать правильные ответы в 55.8% случаев, что свидетельствует о её способности к обобщению знаний и поддержанию надёжной работы в различных условиях. Данный подход способствует созданию более предсказуемых и устойчивых систем искусственного интеллекта, способных к решению сложных задач.

Исследование демонстрирует, что оптимизация многоагентных систем, основанных на больших языковых моделях, требует целостного подхода к распределению заслуг. Как отмечает Бертранд Рассел: «Изменение одной части системы создаёт эффект домино». Данная работа подтверждает эту мысль, показывая, что эффективное назначение заслуг как во времени (временной кредит), так и в структуре агентов (структурный кредит), позволяет целенаправленно обновлять подсказки и улучшать общую производительность системы. Попытки улучшить отдельные компоненты без учета взаимосвязей между ними могут привести к непредсказуемым последствиям, подчеркивая важность понимания архитектуры системы в целом.

Куда Далее?

Представленная работа, безусловно, вносит вклад в понимание оптимизации многоагентных систем на базе больших языковых моделей. Однако, возникает вопрос: что мы на самом деле оптимизируем? Улучшение метрик, наблюдаемое в ходе экспериментов, не гарантирует фундаментального прогресса в решении сложных задач. Элегантный дизайн требует ясности в определении конечной цели, а не просто улучшения промежуточных результатов. Необходимо помнить, что структура определяет поведение, и поверхностные улучшения могут замаскировать более глубокие недостатки в архитектуре системы.

Особое внимание следует уделить проблеме масштабируемости. Эффективность предложенного метода в простых сценариях не означает его применимость к системам, состоящим из сотен или тысяч агентов. Поиск оптимального баланса между точностью назначения заслуг и вычислительными затратами представляется критически важным. Простота — это не минимализм, а четкое различие необходимого и случайного. Попытки усложнить систему ради незначительного улучшения производительности, вероятно, приведут к обратному результату.

Будущие исследования должны сосредоточиться на разработке более общих и адаптивных методов назначения заслуг, способных учитывать различные типы задач и агентов. Интересным направлением представляется интеграция с методами обучения с подкреплением, позволяющими агентам самостоятельно оценивать свой вклад в общий результат. В конечном итоге, успех в этой области зависит не от сложности алгоритмов, а от глубины понимания лежащих в основе принципов.

Оригинал статьи: https://arxiv.org/pdf/2605.30227.pdf

Связаться с автором: https://www.linkedin.com/in/avetisyan/

Смотрите также:

2026-05-31 08:25