Коллективный разум агентов: Оптимизация подсказок для повышения эффективности

Автор: Денис Аветисян

Новый подход позволяет многоагентным системам, использующим графовые нейронные сети, автоматически находить наиболее эффективные комбинации подсказок для решения сложных задач.

"Покупай на слухах, продавай на новостях". А потом сиди с акциями никому не известной биотех-компании. Здесь мы про скучный, но рабочий фундаментал.

Бесплатный Телеграм канал

В рамках разработанной системы MASPOB, агентная топология формируется и генерируются векторные представления запросов на этапе инициализации, после чего оптимальные запросы отбираются посредством алгоритма координального подъема, балансирующего между использованием прогнозов графовой нейронной сети и исследованием неопределенности на основе линейного UCB, а завершается процесс уточнением модели графовой нейронной сети и информационной матрицы на основе обратной связи от исполнения.

Предложена методика MASPOB, использующая алгоритмы «разбойников» для оптимизации подсказок в многоагентных системах с графовыми нейронными сетями.

Несмотря на впечатляющие успехи больших языковых моделей, их эффективное применение в многоагентных системах часто затруднено из-за высокой стоимости оценки и сложности оптимизации запросов. В данной работе представлена методика ‘MASPOB: Bandit-Based Prompt Optimization for Multi-Agent Systems with Graph Neural Networks’ — новый подход к оптимизации запросов, использующий алгоритмы обучения с подкреплением и графовые нейронные сети для повышения производительности системы. Предложенный фреймворк позволяет эффективно исследовать пространство возможных комбинаций запросов, учитывая топологические зависимости между агентами, и демонстрирует превосходные результаты на различных тестовых задачах. Какие перспективы открывает данная методика для построения более интеллектуальных и адаптивных многоагентных систем?

Временная Природа Совместной Работы

Современные задачи, особенно в сферах автоматизации и искусственного интеллекта, все чаще требуют совместной работы множества агентов — программных или аппаратных систем, действующих для достижения общей цели. Однако эффективная координация этих агентов представляет собой серьезную проблему, поскольку она требует не только обмена информацией, но и согласования действий, разрешения конфликтов и адаптации к меняющимся условиям. Сложность возрастает экспоненциально с увеличением числа агентов и усложнением решаемой задачи, что делает разработку надежных и масштабируемых систем коллективного интеллекта одной из ключевых задач современной науки и техники. Обеспечение слаженной работы множества взаимодействующих агентов — это не просто техническая задача, но и вопрос оптимизации коммуникации, распределения ресурсов и поддержания когерентности в динамически меняющейся среде.

Традиционные подходы к организации совместной работы интеллектуальных агентов зачастую оказываются неэффективными в быстро меняющихся условиях. Статические алгоритмы и заранее запрограммированные стратегии плохо приспособлены к ситуациям, когда информация постоянно обновляется, а требования к задаче эволюционируют. В таких динамических средах агентам необходимо не просто выполнять заданные инструкции, но и оперативно анализировать поступающие данные, перестраивать планы действий и координировать усилия с другими участниками процесса. Неспособность адаптироваться к меняющимся обстоятельствам приводит к снижению общей эффективности, увеличению ошибок и задержкам в выполнении сложных задач, что подчеркивает необходимость разработки новых, более гибких и адаптивных методов организации интеллектуального сотрудничества.

Сравнение производительности и времени работы методов координат восхождения и глобального поиска показывает, что на выбранных эталонных задачах они демонстрируют различные траектории оптимизации и затраты времени.

MASPOB: Оптимизация Промптов через Бандитов

Метод MASPOB (Multi-Agent System Prompt Optimization via Bandits) представляет собой систему динамической оптимизации промптов, предназначенную для повышения эффективности многоагентных систем. В основе MASPOB лежит адаптация промптов в процессе взаимодействия с системой, что позволяет максимизировать производительность агентов. В отличие от статических промптов, MASPOB непрерывно корректирует формулировки запросов, основываясь на результатах предыдущих взаимодействий и текущем контексте, что приводит к улучшению общих показателей системы.

Метод MASPOB использует алгоритм `BanditAlgorithm` для динамической оптимизации запросов. Этот алгоритм обеспечивает баланс между исследованием (exploration) новых вариантов запросов и использованием (exploitation) тех, которые уже показали положительные результаты. В процессе работы алгоритм оценивает эффективность каждого запроса в конкретном контексте взаимодействия, что позволяет ему адаптироваться к текущей ситуации и выбирать наиболее подходящий запрос для максимизации производительности агентов. Такой подход обеспечивает непрерывное улучшение качества запросов в процессе эксплуатации системы.

В основе MASPOB лежит подход, использующий контекстуальные бандиты (ContextualBandits), что позволяет системе динамически выбирать наиболее эффективные промпты, учитывая текущее состояние многоагентной системы $MultiAgentSystem$ . В ходе экспериментов, применение данного метода привело к среднему улучшению производительности на 12.02% по сравнению с базовым уровнем IO (Input/Output) на шести различных тестовых наборах данных. Такой подход обеспечивает адаптацию к специфическим условиям каждого взаимодействия, максимизируя общую эффективность системы.

Метод MASPOB превосходит базовый IO на 12.02% в среднем по шести различным задачам, включая ответы на вопросы ([latex]HotpotQA[/latex], [latex]DROP[/latex]), генерацию кода ([latex]HumanEval[/latex], [latex]MBPP[/latex]) и математическое рассуждение ([latex]GSM8K[/latex], [latex]MATH[/latex]), демонстрируя его превосходную производительность. — Метод MASPOB превосходит базовый IO на 12.02% в среднем по шести различным задачам, включая ответы на вопросы ( $HotpotQA$ , $DROP$ ), генерацию кода ( $HumanEval$ , $MBPP$ ) и математическое рассуждение ( $GSM8K$ , $MATH$ ), демонстрируя его превосходную производительность.

Внутренний Механизм: Обучение и Адаптация

В MASPOB для оценки потенциальной награды каждого запроса используется алгоритм `LinearUCB`. Оценка формируется на основе $InformationMatrix$ , которая отражает ценность новых наблюдений. `InformationMatrix` определяет, насколько полезным будет получение дополнительной информации о конкретном запросе для уточнения оценки его эффективности. Алгоритм `LinearUCB` комбинирует текущую оценку награды с мерой неопределенности, вычисленной на основе `InformationMatrix`, что позволяет системе эффективно исследовать пространство запросов и выбирать наиболее перспективные для дальнейшей оптимизации.

В системе MASPOB оценка надежности прогнозов вознаграждения для каждого запроса осуществляется посредством $UncertaintyEstimation$ . Этот механизм позволяет количественно оценить неопределенность, связанную с текущими оценками, учитывая ограниченность данных и сложность модели. Высокая неопределенность указывает на то, что дополнительная информация, полученная в результате использования данного запроса, может существенно улучшить точность прогнозов. На основе этих оценок неопределенности, MASPOB формирует приоритеты, отдавая предпочтение запросам, которые потенциально способны внести наибольший вклад в снижение общей неопределенности и, следовательно, в повышение эффективности системы обучения.

Для повышения эффективности, в MASPOB интегрирована графовая нейронная сеть (GNN) для обеспечения топологической осведомленности. Данная сеть позволяет учитывать взаимосвязи между агентами при разработке запросов (prompts). GNN анализирует граф взаимодействий между агентами, определяя их роли и влияние друг на друга. Это позволяет MASPOB адаптировать запросы таким образом, чтобы они учитывали структуру взаимодействия агентов, что приводит к более эффективному обучению и улучшению координации между ними. Таким образом, GNN обеспечивает контекстное понимание при формировании запросов, выходящее за рамки индивидуальных характеристик агентов.

Линейная неопределенность в стиле LinUCB сходится значительно быстрее (на 71.68% за 45 итераций) по сравнению с неопределенностью, оцениваемой нейронной сетью (снижение на 22.48%), что указывает на необходимость большего количества итераций для достижения сопоставимой уверенности в нейронной сети.

Валидация и Уточнение Генерации Кода

В основе MASPOB лежит алгоритм $CoordinateAscent$ , позволяющий итеративно совершенствовать запросы к языковой модели. Система анализирует обратную связь от агентов, получаемую в процессе генерации кода, и на её основе корректирует параметры запросов. Этот процесс повторяется до тех пор, пока не будет достигнута сходимость к оптимальным решениям, что гарантирует последовательное улучшение качества генерируемого кода. Алгоритм позволяет системе адаптироваться к особенностям задачи и находить наиболее эффективные способы формулировки запросов для получения наилучших результатов.

Система генерирует программный код, используя большие языковые модели (LLM), и тщательно проверяет его корректность посредством модуля “CodeValidation”. Данный процесс верификации не является случайным; точность и надежность сгенерированного кода оцениваются на основе общепризнанного набора задач HumanEval, представляющего собой эталонный тест для оценки возможностей языковых моделей в области программирования. Это позволяет не только выявить ошибки и неточности, но и количественно оценить производительность системы, сравнивая результаты с существующими решениями и обеспечивая постоянное улучшение качества генерируемого кода.

Для повышения надежности и точности всей системы была применена методика ансамблевого голосования — EnsembleVoting. Суть подхода заключается в объединении результатов, полученных от нескольких независимых агентов. В процессе анализа было установлено, что данная стратегия позволяет значительно снизить влияние случайных ошибок, свойственных отдельным агентам, и повысить общую устойчивость системы. В результате внедрения EnsembleVoting удалось добиться прироста производительности в 2,06% по сравнению с системой AFlow и в 1,71% — с MIPRO, что подтверждает эффективность предложенного подхода к агрегированию результатов и демонстрирует его потенциал для дальнейшего улучшения качества генерируемого кода.

Оптимизация сходится к стабильной точности на валидационном и тестовом наборах данных, демонстрируя средние значения, усредненные по пяти раундам для валидации и по трем запускам для тестовых комбинаций в раундах 5, 10, …, 50.

Представленное исследование, посвященное оптимизации подсказок в многоагентных системах, подчеркивает неизбежность компромиссов при стремлении к эффективности. Подобно тому, как любая система со временем накапливает технический долг, MASPOB, оптимизируя комбинации подсказок, неизбежно сталкивается с необходимостью выбора между краткосрочным улучшением производительности и долгосрочной устойчивостью. Дональд Кнут однажды заметил: «Преждевременная оптимизация — корень всех зол». Это особенно актуально в контексте MASPOB, где эффективный поиск в комбинаторном пространстве требует баланса между исследованием и использованием, а любые упрощения могут привести к упущению потенциально лучших решений в будущем. Оптимизация подсказок, как и любое проектирование системы, — это постоянный процесс адаптации и переоценки, где цена упрощения всегда должна быть учтена.

Что же дальше?

Представленный подход, оптимизирующий комбинации запросов в многоагентных системах, не решает проблему старения самой инфраструктуры. Скорее, он предлагает способ отсрочить неизбежное — постепенное снижение эффективности, присущее любой сложной системе. Технический долг, как эрозия, рано или поздно потребует перестройки, и MASPOB — лишь инструмент для более эффективного использования существующих ресурсов в течение ограниченного времени.

Настоящим вызовом остается не поиск оптимальных комбинаций, а создание систем, способных к самоадаптации и самовосстановлению. Аптайм, в данном контексте, — не просто показатель бесперебойной работы, но редкая фаза гармонии во времени, которую необходимо постоянно поддерживать. Будущие исследования должны быть направлены на разработку алгоритмов, способных предсказывать и компенсировать деградацию системы, а не просто оптимизировать её текущее состояние.

Очевидно, что комбинаторная оптимизация — лишь часть проблемы. Более фундаментальные вопросы, касающиеся архитектуры многоагентных систем и способов обеспечения их устойчивости к внешним воздействиям, остаются открытыми. В конечном счете, задача заключается не в том, чтобы заставить систему работать дольше, а в том, чтобы создать систему, способную достойно стареть.

Оригинал статьи: https://arxiv.org/pdf/2603.02630.pdf

Связаться с автором: https://www.linkedin.com/in/avetisyan/

Смотрите также:

2026-03-05 02:36