Рекомендации будущего: как нейросети управляют взаимодействием агентов

Автор: Денис Аветисян

Новый подход к построению рекомендательных систем использует возможности больших языковых моделей для координации нескольких интеллектуальных агентов, обеспечивая более качественные и соответствующие требованиям результаты.

"Покупай на слухах, продавай на новостях". А потом сиди с акциями никому не известной биотех-компании. Здесь мы про скучный, но рабочий фундаментал.

Бесплатный Телеграм канал

Архитектура DualAgent-Rec представляет собой трехэтапный процесс, в котором история пользователя, каталог товаров и бизнес-ограничения кодируются, а затем ресурсы динамически распределяются между агентом эксплуатации, основанным на CDP, и агентом исследования с повышенной скоростью мутации, при этом элитные решения обмениваются посредством двунаправленного переноса знаний и адаптивной релаксации ε, что в конечном итоге позволяет отфильтровать парето-оптимальные осуществимые решения для формирования итогового списка рекомендаций.

Предложена архитектура DualAgent-Rec, основанная на координации двух агентов с помощью LLM для достижения оптимального баланса между различными критериями и соблюдения жестких ограничений в e-commerce.

Оптимизация рекомендательных систем с учётом множества целей и жёстких бизнес-ограничений, таких как обеспечение разнообразия предложений и включение новых товаров, остаётся сложной задачей, приводящей к частым нарушениям ограничений в реальных условиях. В работе ‘LLMs as Orchestrators: Constraint-Compliant Multi-Agent Optimization for Recommendation Systems’ предложен фреймворк DualAgent-Rec, использующий большие языковые модели (LLM) для координации двух агентов, оптимизирующих точность и разнообразие рекомендаций при строгом соблюдении заданных ограничений. Показано, что DualAgent-Rec обеспечивает 100% соблюдение ограничений и улучшает показатели Парето на 4-6% по сравнению с существующими подходами. Может ли подобная архитектура, использующая LLM в качестве оркестратора, стать стандартом для построения надёжных и эффективных рекомендательных систем в e-commerce?

За пределами единственной цели: вызовы современных рекомендательных систем

Традиционные системы рекомендаций зачастую сосредотачиваются исключительно на повышении точности предсказаний, игнорируя при этом такие важные аспекты, как разнообразие предлагаемого контента и справедливость по отношению к различным поставщикам или создателям. Подобный подход, ориентированный на максимизацию одной метрики, может привести к формированию “пузырей фильтров”, когда пользователю демонстрируется лишь контент, соответствующий его прошлым предпочтениям, ограничивая возможности для открытия нового и интересного. Кроме того, чрезмерное внимание к точности часто приводит к доминированию популярных товаров или продавцов в рекомендациях, усугубляя неравенство и снижая общую удовлетворенность пользователей, поскольку менее известные, но потенциально релевантные варианты остаются незамеченными.

Сужение фокуса рекомендательных систем до единственной метрики, такой как точность, зачастую приводит к формированию так называемых “информационных пузырей”. Пользователи всё чаще сталкиваются с контентом, подтверждающим их существующие взгляды, что ограничивает их кругозор и препятствует открытию нового. Более того, подобные системы склонны переоценивать популярные товары или продавцов, создавая дисбаланс на рынке и снижая удовлетворенность потребителей. Отсутствие разнообразия в рекомендациях не только утомляет пользователей, но и негативно влияет на менее известные, но потенциально интересные предложения, подавляя инновации и конкуренцию в долгосрочной перспективе.

Современная электронная коммерция характеризуется экспоненциальным ростом ассортимента и усложнением поведения пользователей, что требует от рекомендательных систем способности одновременно учитывать множество, зачастую противоречивых, целей. Больше недостаточно просто предсказывать, что пользователю понравится, основываясь на прошлых покупках; необходимо балансировать точность предсказаний с разнообразием предлагаемых товаров, справедливостью в отношении различных продавцов и даже учитывать долгосрочные интересы пользователя. Эффективные системы должны адаптироваться к меняющимся предпочтениям, открывать новые, потенциально интересные товары и предотвращать формирование «пузырей фильтров», обеспечивая пользователю не только релевантные, но и неожиданные, полезные рекомендации. Такой многоцелевой подход позволяет создавать действительно персонализированный опыт, способствующий повышению удовлетворенности пользователей и укреплению лояльности к платформе.

Двойной агент демонстрирует улучшенное распределение и охват в пространстве компромисса между точностью и разнообразием, особенно в областях с высокой степенью разнообразия, где агент-разведчик находит решения, упущенные из виду единым поиском.

DualAgent-Rec: LLM-координация для многоцелевого подхода

DualAgent-Rec представляет собой новую архитектуру, в которой координация между двумя агентами — агентом исследования и агентом эксплуатации — осуществляется с помощью LLM-координатора. LLM-координатор динамически управляет работой агентов, направляя агента исследования на поиск разнообразных компромиссов между различными целями без ограничений, и агента эксплуатации — на уточнение высококачественных решений в рамках заданных ограничений. Такой подход позволяет системе одновременно исследовать различные возможности и оптимизировать существующие решения, обеспечивая более гибкий и эффективный процесс генерации рекомендаций.

Агент исследования выполняет поиск Парето без ограничений, что позволяет выявить разнообразные компромиссы между целевыми функциями. Этот процесс направлен на определение широкого спектра решений, не ограничиваясь выполнением каких-либо конкретных ограничений. В свою очередь, агент эксплуатации уточняет высококачественные решения, полученные агентом исследования, но уже в рамках заданных ограничений и критериев выполнимости. Такой подход позволяет получить оптимальные решения, отвечающие как требованиям качества, так и ограничениям, накладываемым на систему. $\text{Pareto-оптимальность}$ гарантирует, что улучшение по одной целевой функции не приводит к ухудшению по другим.

В рамках DualAgent-Rec, координация агентов исследования и эксплуатации, основанная на методе Парето-оптимизации, позволяет генерировать Парето-фронт решений. Этот фронт представляет собой набор не-доминируемых решений, каждое из которых оптимально по крайней мере по одному из рассматриваемых критериев — точности, разнообразию и справедливости. Пользователю предоставляется возможность выбора решения из Парето-фронта, исходя из его индивидуальных приоритетов и предпочтений относительно баланса между этими критериями. В отличие от традиционных подходов, стремящихся к единому оптимальному решению, Парето-фронт обеспечивает более широкий спектр альтернатив, учитывающих различные компромиссы между заданными целями.

Двухагентный подход DualAgent-Rec демонстрирует более быструю начальную сходимость и более высокий итоговый гиперобъем по сравнению с другими методами, благодаря раннему разнообразию, обеспечиваемому агентом-исследователем.

Ограничения и адаптивное исследование: ключ к эффективной оптимизации

Агент эксплуатации использует принцип доминирования ограничений (Constraint Domination Principle) для приоритизации допустимых решений, что эффективно минимизирует нарушения ограничений в процессе уточнения. Данный принцип предполагает, что при оценке альтернативных решений приоритет отдается тем, которые имеют меньше нарушенных ограничений или, при равном количестве нарушений, — меньше величины этих нарушений. Это позволяет агенту сосредоточиться на областях пространства решений, наиболее близких к выполнению всех заданных ограничений, и избегать траты ресурсов на заведомо недопустимые варианты. Применение этого принципа существенно повышает эффективность процесса уточнения и обеспечивает генерацию более качественных и выполнимых рекомендаций.

Для обеспечения исследования пространства решений и обнаружения перспективных областей, используется метод адаптивной эпсилон-релаксации. Данный метод предполагает постепенное ужесточение ограничений в процессе оптимизации. Изначально, допуски к ограничениям устанавливаются на определенном уровне ε, позволяя агенту исследовать более широкую область решений. По мере продвижения процесса оптимизации, значение ε последовательно уменьшается, что приводит к более строгому соблюдению ограничений и фокусировке на наиболее перспективных, допустимых решениях. Такая динамическая настройка позволяет эффективно балансировать между исследованием и эксплуатацией, избегая преждевременной сходимости к локальным оптимумам и обеспечивая генерацию высококачественных рекомендаций.

Комбинация обработки ограничений и адаптивного исследования позволяет DualAgent-Rec эффективно ориентироваться в сложных пространствах целевых функций и генерировать высококачественные, допустимые рекомендации. Применение принципа доминирования ограничений гарантирует приоритет решений, минимизирующих нарушения ограничений в процессе уточнения. Одновременно, адаптивная эпсилон-релаксация, динамически ужесточающая ограничения во времени, способствует исследованию перспективных областей пространства решений, что позволяет системе находить оптимальные решения даже в сложных и многомерных задачах. Такой подход обеспечивает не только достижение допустимых результатов, но и максимизацию качества генерируемых рекомендаций.

Адаптивный механизм ε-релаксации обеспечивает постепенную сходимость к 100% выполнимости ограничений, поддерживая разнообразие поиска на ранних этапах оптимизации, а самокалибровка позволяет исследовать перспективные недопустимые области.

Эмпирическая валидация и прирост производительности: подтверждение эффективности

В ходе оценки модели DualAgent-Rec на наборе данных Amazon Reviews было продемонстрировано значительное улучшение метрики Hypervolume — ключевого показателя качества Парето-фронта. Полученный прирост составил 4.3% по сравнению с базовыми моделями, использующими однопопуляционный подход. Данный результат свидетельствует о способности DualAgent-Rec формировать более оптимальные и сбалансированные рекомендации, эффективно исследуя пространство решений и находя компромиссы между различными критериями качества. Улучшение Hypervolume подтверждает, что модель способна генерировать решения, которые лучше соответствуют предпочтениям пользователей и требованиям к разнообразию рекомендуемых товаров.

Исследования показали, что система DualAgent-Rec обеспечивает повышенное разнообразие в формировании рекомендаций. Это проявляется в более сбалансированном представлении как самих товаров, так и продавцов, что позволяет пользователям открывать для себя более широкий спектр предложений. Повышенное разнообразие положительно сказывается на показателях оценки качества рекомендаций, в частности, наблюдается улучшение метрики NDCG (Normalized Discounted Cumulative Gain), отражающей релевантность и порядок выдаваемых результатов. Такой подход способствует более полному удовлетворению потребностей пользователей и стимулирует взаимодействие с различными элементами платформы.

Исследования показали, что DualAgent-Rec демонстрирует полную удовлетворительность заданным ограничениям во всех конфигурациях, что является ключевым показателем надежности и применимости системы. Несмотря на увеличение времени выполнения на 94%, необходимое для достижения 4.3%-ного улучшения в метрике Hypervolume, данный компромисс оправдан, поскольку обеспечивает не только повышение качества рекомендаций, но и гарантирует их соответствие всем заданным условиям. Такой баланс между производительностью и точностью подтверждает практическую целесообразность DualAgent-Rec и его способность предоставлять высококачественные рекомендации в реальных условиях.

Анализ чувствительности гиперпараметров показывает, что размер популяции и строгость ограничений оказывают наибольшее влияние на качество оптимизации.

Представленная работа демонстрирует изящную адаптацию к неизбежной энтропии сложных систем. DualAgent-Rec, координируя взаимодействие агентов, не стремится к мгновенной оптимизации, а позволяет системе эволюционировать, удовлетворяя жестким ограничениям и формируя устойчивое решение в пространстве Парето. Как однажды заметил Джон Маккарти: «Лучший способ предсказать будущее — создать его». В данном случае, создается не просто рекомендательная система, а среда, в которой система способна учиться и адаптироваться к меняющимся условиям, достойно старея и поддерживая свою функциональность. Наблюдение за тем, как агенты согласовывают свои действия, позволяет увидеть не только эффективность алгоритма, но и красоту самой адаптации.

Куда Далее?

Представленная работа, фокусируясь на координации языковых моделей в задачах рекомендательных систем, лишь обозначает горизонт, а не достигает его. Эффективность DualAgent-Rec, безусловно, примечательна, однако, архитектура без истории — хрупка и скоротечна. Вопрос не в достижении оптимального Парето-фронта сегодня, а в способности системы адаптироваться к меняющимся требованиям и неявным ограничениям завтра. Задержка в достижении абсолютной оптимальности — это цена понимания, и истинная проверка системы — это ее устойчивость во времени.

Особое внимание следует уделить исследованию механизмов самообучения и эволюции архитектуры агентов. Простое масштабирование DualAgent-Rec не решит проблему «холодного старта» или внезапного изменения предпочтений пользователей. Настоящим вызовом является создание системы, способной не только удовлетворять текущие ограничения, но и предвидеть будущие, а также самостоятельно перестраивать свою структуру для обеспечения долгосрочной эффективности.

Все системы стареют — вопрос лишь в том, делают ли они это достойно. Использование языковых моделей как оркестраторов — это многообещающее направление, но оно требует не только улучшения алгоритмов, но и философского переосмысления самой природы рекомендательных систем. Необходимо переходить от поиска «лучшего» решения к построению систем, способных к постоянной эволюции и адаптации.

Оригинал статьи: https://arxiv.org/pdf/2601.19121.pdf

Связаться с автором: https://www.linkedin.com/in/avetisyan/

Смотрите также:

2026-01-28 14:53