Торг с Искусственным Интеллектом: Новая Эра Переговоров

Автор: Денис Аветисян


Исследование демонстрирует возможности обучения больших языковых моделей ведению двусторонних переговоров, учитывая частную информацию и стратегии.

"Покупай на слухах, продавай на новостях". А потом сиди с акциями никому не известной биотех-компании. Здесь мы про скучный, но рабочий фундаментал.

Бесплатный Телеграм канал
Траектория переговоров декомпозируется на отдельные ходы, каждый из которых рассматривается как элемент последовательности для обучения с помощью авторегрессионных моделей.
Траектория переговоров декомпозируется на отдельные ходы, каждый из которых рассматривается как элемент последовательности для обучения с помощью авторегрессионных моделей.

Обучение языковых моделей с подкреплением для моделирования двусторонних торгов с учетом асимметричной информации и выработки эффективных стратегий.

Несмотря на успехи в обучении больших языковых моделей, оценка и совершенствование их способностей к ведению переговоров в условиях неполной информации остается сложной задачей. В работе ‘Training Language Models for Bilateral Trade with Private Information’ представлена структурированная среда для обучения и оценки LLM в роли переговорщиков, позволяющая анализировать стратегии и выявлять ключевые факторы успеха. Полученные результаты показывают, что эффективные стратегии подразумевают ценовую дискриминацию посредством последовательных предложений, при этом баланс между рациональностью и достижением соглашения является критически важным. Какие новые подходы к обучению и оценке агентов на основе LLM позволят достичь более эффективных и стабильных результатов в сложных переговорных процессах?


Традиционные модели переговоров: иллюзия совершенной рациональности

Традиционная теория игр, стремясь к математической строгости, часто исходит из предположения о полной рациональности участников переговоров. Однако, в реальных ситуациях, решения людей редко основываются исключительно на логическом анализе выгод и издержек. Эмоции, предубеждения, когнитивные искажения и ограниченность информации оказывают существенное влияние на процесс принятия решений. Предположение о совершенной рациональности игнорирует такие факторы, как склонность к риску, неприятие потерь или стремление к справедливости, что приводит к неточным прогнозам и неадекватным моделям переговорных процессов. В результате, модели, основанные на этой предпосылке, часто оказываются неспособными объяснить реальное поведение переговорщиков и предсказать исход переговоров, особенно в сложных и динамичных ситуациях.

Моделирование сложных переговоров требует надежных методов представления агентов и их стратегических решений, однако это часто связано со значительными вычислительными затратами. Разработка реалистичных моделей, способных отразить многообразие тактик и непредсказуемость поведения участников, неизбежно приводит к экспоненциальному росту сложности вычислений. Каждый агент, принимающий решения на основе своей оценки ситуации и вероятных действий оппонентов, добавляет новые уровни комбинаторной сложности. В результате, даже сравнительно небольшое количество агентов и ограниченное количество раундов переговоров могут потребовать огромных вычислительных ресурсов, что ограничивает возможности проведения масштабных симуляций и анализа различных сценариев. Использование приближенных методов и упрощенных моделей позволяет частично решить эту проблему, но неизбежно приводит к потере точности и реалистичности полученных результатов.

Для адекватного моделирования процесса переговоров и выявления причин достижения соглашений или, наоборот, их срыва, необходимо детальное представление о предпочтениях участников и степени информированности каждого из них. Недостаточное внимание к индивидуальным ценностям и приоритетам, а также к асимметрии информации — когда один участник обладает большей информацией, чем другой — приводит к упрощенным и нереалистичным моделям. Например, u_i(x), функция полезности агента i над набором исходов x, должна учитывать не только количественные показатели, но и субъективное восприятие ценности каждого исхода. Более того, моделирование неполной информации, когда участники имеют лишь вероятностные представления о предпочтениях оппонентов, позволяет выявить стратегии, направленные на максимизацию собственной выгоды в условиях неопределенности и, как следствие, более точно предсказать исход переговоров.

Система двусторонних переговоров моделирует взаимодействие агентов, инициализированных резервными ценами ([latex]s[/latex] для продавца и [latex]b[/latex] для покупателя), посредством управляемого протокола с чередующимися ходами, ограниченным количеством раундов и инструментами, где исход определяется достижением соглашения и рассчитывается полезность сторон ([latex]U_B = b - p[/latex]; [latex]U_S = p - s[/latex]) в зависимости от итоговой цены [latex]p[/latex].
Система двусторонних переговоров моделирует взаимодействие агентов, инициализированных резервными ценами (s для продавца и b для покупателя), посредством управляемого протокола с чередующимися ходами, ограниченным количеством раундов и инструментами, где исход определяется достижением соглашения и рассчитывается полезность сторон (U_B = b - p; U_S = p - s) в зависимости от итоговой цены p.

Агенты на базе LLM: новый взгляд на переговоры

В основе нашего LLMNegotiationAgent лежит использование передовых FrontierLLM моделей, в частности QwenModel. QwenModel представляет собой большую языковую модель, разработанную для генерации связного и релевантного текста, что критически важно для эффективного ведения переговоров. Выбор QwenModel обусловлен ее способностью к пониманию контекста, генерации естественного языка и адаптации к различным стилям общения, что позволяет агенту эффективно взаимодействовать с оппонентами и достигать поставленных целей в процессе переговоров. Модель обеспечивает основу для разработки агента, способного к сложным рассуждениям и принятию стратегических решений в динамичной среде переговоров.

Начальное обучение агентов осуществляется посредством Supervised Fine-Tuning (SFT) с использованием демонстрационных данных. Этот метод предполагает адаптацию предварительно обученной языковой модели, в данном случае QwenModel, к конкретной задаче ведения переговоров. В процессе SFT модель обучается на наборе примеров, содержащих последовательности реплик и соответствующих действий, демонстрирующих желаемое поведение в переговорном процессе. Использование демонстрационных данных позволяет агенту быстро приобрести базовый уровень компетентности в переговорах, формируя отправную точку для дальнейшего обучения и совершенствования стратегий.

Для оценки производительности LLM-агентов используется структурированная среда, построенная на базе AgentSystem и использующая StructuredActions. AgentSystem обеспечивает необходимую инфраструктуру для взаимодействия агентов и моделирования сложных сценариев. StructuredActions — это предопределенный набор действий, которые агент может выполнять, что позволяет стандартизировать процесс переговоров и упростить анализ результатов. Использование структурированных действий гарантирует, что все агенты оперируют в рамках единого набора возможностей, исключая влияние неконтролируемых или непредсказуемых действий на оценку их эффективности и обеспечивая сопоставимость результатов между различными агентами и экспериментами.

Система использует событийное моделирование (EventDrivenSimulation) для точного воспроизведения динамики переговоров и реакций агентов. В рамках этой модели, ход переговоров определяется последовательностью событий, каждое из которых инициирует определенные действия со стороны агентов. Каждое событие включает в себя информацию о текущем состоянии переговоров, предложениях, ответах и других релевантных данных. Это позволяет системе имитировать сложные сценарии переговоров, учитывая временные зависимости и причинно-следственные связи между действиями агентов, обеспечивая реалистичную и контролируемую среду для оценки производительности агентов-переговорщиков.

В ходе обучения модели Qwen часто демонстрировала нерациональное поведение в сценариях, когда сделка не приносила выгоды ни одной из сторон ([latex]NGFT[/latex]), особенно при взаимодействии с другими моделями.
В ходе обучения модели Qwen часто демонстрировала нерациональное поведение в сценариях, когда сделка не приносила выгоды ни одной из сторон (NGFT), особенно при взаимодействии с другими моделями.

Оптимизация поведения агентов: от тонкой настройки до обучения с подкреплением

После начального этапа обучения с подкреплением на основе человеческих предпочтений (SFT), для дальнейшей оптимизации поведения агентов в переговорной среде применяется алгоритм Group Relative Policy Optimization (GRPO). GRPO позволяет агентам обучаться, сравнивая свою политику с политиками других агентов в группе, что способствует более эффективной стратегии ведения переговоров. Этот метод особенно полезен в сложных средах, где требуется учитывать множество факторов и адаптироваться к различным сценариям, обеспечивая улучшение результатов по сравнению с использованием только SFT.

Эффективное применение Group Relative Policy Optimization (GRPO) требует тщательной разработки функции вознаграждения (Reward Shaping) для направления поведения агентов. Правильно сконструированное вознаграждение стимулирует агентов к достижению желаемых результатов, а именно — максимизации общего выигрыша (surplus) и заключению эффективных соглашений. Это достигается за счет определения промежуточных целей и поощрения действий, которые приближают агента к оптимальной стратегии ведения переговоров. Отсутствие четкого Reward Shaping может привести к неоптимальному поведению агентов, даже при использовании продвинутых алгоритмов обучения с подкреплением.

Анализ результатов переговоров посредством декомпозиции по ценовым уровням (PriceTierDecomposition) позволяет выявить поведение агентов в различных диапазонах цен и определить их сильные и слабые стороны. Данный метод предполагает разделение всех возможных цен на несколько уровней (например, квинтили) и анализ показателей эффективности агента — таких как доля заключенных сделок, полученная прибыль или излишки покупателя — для каждого уровня. Это позволяет оценить, насколько хорошо агент адаптирует свою стратегию к различным ценовым диапазонам, и выявить области, где требуется улучшение. Например, декомпозиция может показать, что агент успешно заключает сделки в нижнем ценовом диапазоне, но испытывает трудности при работе с более дорогими позициями, что указывает на необходимость оптимизации стратегии ценообразования и уступок.

При использовании Supervised Fine-Tuning (SFT) наблюдалось снижение разброса в выигрыше покупателя (buyer surplus) между квинтилями цен до 7-9 процентных пунктов. Это представляет собой значительное улучшение по сравнению с базовыми моделями, где данный разброс составлял 15-25 процентных пунктов. Снижение разброса указывает на более пропорциональную стратегию ведения переговоров, что свидетельствует о более равномерном распределении выгод между покупателем и продавцом в различных ценовых диапазонах. Данный показатель используется для оценки эффективности обучения агентов и их способности адаптироваться к различным ценностным предпочтениям контрагентов.

Для интерпретации стратегий агентов и прогнозирования динамики переговоров ключевыми параметрами являются резервная цена (ReservationPrice) и скорость уступок (ConcessionRate). Резервная цена представляет собой минимальную приемлемую цену для продавца или максимальную цену, которую готов заплатить покупатель, после чего сделка становится невыгодной. Скорость уступок отражает, насколько быстро агент снижает свои требования (для продавца) или повышает готовность заплатить (для покупателя) по мере продолжения переговоров. Анализ этих параметров позволяет оценить, насколько эффективно агент адаптируется к ситуации, стремится ли он к компромиссу и как это влияет на достижение взаимовыгодного соглашения. Изменение этих значений во время переговоров служит индикатором стратегии агента и предсказывает его дальнейшее поведение.

В ходе обучения с подкреплением GPT-4.1 демонстрирует стратегическую эффективность и аллокативную результативность в сценариях GFT, выраженные в доле успешных переговоров и захваченной доле ZOPA, при этом сохраняя эти показатели и при столкновении с незнакомыми агентами o3-mini.
В ходе обучения с подкреплением GPT-4.1 демонстрирует стратегическую эффективность и аллокативную результативность в сценариях GFT, выраженные в доле успешных переговоров и захваченной доле ZOPA, при этом сохраняя эти показатели и при столкновении с незнакомыми агентами o3-mini.

За рамками эффективности: стратегическое понимание

Эксперименты показали, что способность агентов захватывать долю избыточной выгоды (SurplusShare) существенно различается в зависимости от выбранной стратегии. Наблюдения подтверждают, что продуманный стратегический выбор оказывает прямое влияние на конечный результат переговоров. В различных смоделированных сценариях агенты, применяющие активные стратегии, демонстрировали более высокую способность к извлечению выгоды по сравнению с пассивными подходами или базовыми моделями. Анализ полученных данных позволил выявить ключевые факторы, определяющие успех в распределении ресурсов и достижении взаимовыгодных соглашений, подчеркивая важность адаптации стратегии к конкретной ситуации.

Исследования показали, что применение агрессивной стратегии начальной цены, или “якорения”, привело к максимальному увеличению доли избыточной выгоды — SurplusShare — в различных сценариях переговоров. Данный подход, заключающийся в выдвижении смелых первоначальных предложений, последовательно демонстрировал превосходство над более уступчивыми стратегиями и базовыми моделями, не использующими продвинутые тактики. Результаты подтверждают, что даже при использовании достаточно жестких начальных условий, можно достичь высокой вероятности заключения сделки, при этом максимизируя общую выгоду для агента. Это подчеркивает важность формирования начальных условий и умения устанавливать амбициозные, но реалистичные цели в процессе переговоров.

Исследования показали, что наделение агентов способностью к моделированию оппонента — то есть, к анализу и прогнозированию стратегий поведения других участников переговоров — значительно повышает их результативность. Агенты, способные адаптироваться к различным стилям ведения переговоров, демонстрируют улучшенные показатели в достижении взаимовыгодных соглашений. В процессе обучения с подкреплением, такая способность позволяет им эффективно реагировать на агрессивные или уступчивые подходы со стороны оппонента, корректируя собственную стратегию для максимизации получаемой выгоды и увеличения вероятности успешного завершения сделки. Таким образом, моделирование оппонента становится ключевым фактором в оптимизации переговорного процесса и достижении более эффективных результатов.

Исследования показали, что агенты, использующие агрессивные первоначальные предложения, демонстрируют поразительно высокую долю заключенных сделок — от 93 до 99 процентов. Этот результат свидетельствует о возможности успешного сочетания напористости и стремления к соглашению, разрушая распространенное представление о том, что жесткая тактика неизбежно приводит к срыву переговоров. Анализ стратегий показал, что правильно выстроенная агрессивность не только не препятствует достижению договоренностей, но и может способствовать более выгодным результатам, при условии сохранения рациональности и адаптации к поведению оппонента. Такой подход позволяет максимизировать получаемую выгоду, не жертвуя при этом вероятностью успешного завершения сделки.

Исследования показали, что эффект привязки — когнитивное искажение, при котором люди чрезмерно полагаются на первую предложенную информацию при принятии решений — играет ключевую роль в процессе переговоров. Анализ влияния этого эффекта демонстрирует, насколько важны умелое формулирование предложений и выбор начальной цены. Даже если первоначальное предложение является агрессивным, грамотная стратегия может обеспечить высокий уровень заключения сделок, поскольку оппоненты склонны использовать эту начальную точку отсчета при оценке справедливости и выгодности предложения. Таким образом, умение формировать рамки восприятия и эффективно использовать эффект привязки становится важным инструментом для достижения взаимовыгодных соглашений, оказывая значительное влияние на итоговое распределение выгод.

В процессе обучения с подкреплением наблюдался компромисс между стратегической избирательностью и завершением сделок. Агенты, стремящиеся к максимальной выгоде от каждой конкретной сделки, часто отказывались от потенциально выгодных соглашений, демонстрируя высокую избирательность, но низкий общий уровень завершенности. В то же время, модели, ориентированные на быстрое заключение сделок, часто соглашались на менее выгодные условия. Это указывает на необходимость усовершенствования дизайна системы вознаграждений, чтобы обеспечить баланс между стремлением к оптимальным сделкам и поддержанием высокой скорости заключения соглашений. Оптимизация вознаграждения позволит агентам более эффективно находить золотую середину, максимизируя общую выгоду, а не только от отдельных сделок.

Исследования показали, что наиболее эффективная модель, разработанная в рамках данной работы, демонстрирует высокий уровень индивидуальной рациональности, о чем свидетельствует крайне низкий процент нарушений принципов Негоциативной Теории Игр (NGFT) — менее 5%. Это указывает на то, что агент последовательно принимает решения, максимизирующие его собственную выгоду в рамках заданных правил и ограничений. Низкий уровень нарушений NGFT подтверждает, что модель не совершает логически неверных действий, стремясь к оптимальному исходу переговоров и демонстрируя способность к стратегическому мышлению, основанному на рациональном анализе ситуации. Полученный результат является важным подтверждением эффективности предложенного подхода к моделированию переговорных процессов и позволяет утверждать о ее высокой степени реалистичности.

Данное исследование вносит существенный вклад в углубленное понимание аллокативной эффективности и факторов, определяющих достижение взаимовыгодных соглашений. Анализ стратегий ведения переговоров, включая агрессивное закрепление первоначальных предложений и адаптацию к стилям оппонентов, позволяет выявить ключевые элементы, способствующие максимизации общей ценности создаваемого соглашения. Установлено, что продуманный подход к формированию первоначальных условий, в сочетании с возможностью моделировать поведение контрагента, позволяет достигать высоких показателей завершения сделок — до 99% — при сохранении рациональности принимаемых решений, что подтверждается низким уровнем нарушения принципов NGFT (менее 5%). Таким образом, представленная работа не только демонстрирует возможности повышения эффективности переговоров, но и проливает свет на механизмы, лежащие в основе успешного распределения ресурсов и достижения оптимальных результатов для всех участников.

В сценариях GFT, при переговорах с пятью различными оппонентами, доля избытка и процент заключенных сделок демонстрируют, что покупатель (B) и продавец (S) совместно захватывают определенную часть зоны потенциального соглашения (ZOPA) при достижении договоренности.
В сценариях GFT, при переговорах с пятью различными оппонентами, доля избытка и процент заключенных сделок демонстрируют, что покупатель (B) и продавец (S) совместно захватывают определенную часть зоны потенциального соглашения (ZOPA) при достижении договоренности.

Наблюдения, представленные в работе о тренировке языковых моделей для ведения переговоров, закономерно подтверждают старую истину. Модели, стремящиеся к оптимальным решениям в условиях приватной информации, неизбежно сталкиваются с компромиссом между рациональностью и практическим завершением сделки. Как точно подмечено в исследовании, баланс между этими двумя аспектами оказывается критически важным. Клод Шеннон говорил: «Теория коммуникации — это всего лишь способ организации информации». Здесь это особенно заметно: даже самая совершенная модель, обладающая огромным объемом данных, не сможет эффективно торговаться, если не умеет правильно структурировать и передавать информацию о своих интересах и ограничениях. В конечном итоге, элегантная теория, описанная в статье, рано или поздно столкнется с суровой реальностью проджект-менеджмента, где документация — это, скорее, легенда, чем руководство к действию.

Что дальше?

Представленная работа, несомненно, добавляет ещё один уровень абстракции к проблеме машинного ведения переговоров. Однако, как и следовало ожидать, выявление «эффективных стратегий» в контролируемой среде лишь подчеркивает разрыв между симуляцией и реальным миром. Иллюзия рациональности быстро развеется, когда агенты столкнутся с непредсказуемостью человеческого фактора, с банальным нежеланием сторон признавать очевидное. Каждый «прорыв» в области агентного ИИ неизбежно выявит новые способы обхода системы, новые уязвимости в логике.

Вместо гонки за всё более сложными моделями, возможно, стоит пересмотреть сам подход. Не нужно больше микросервисов — нам нужно меньше иллюзий. Акцент должен быть сделан на робастности, на способности агентов адаптироваться к неполной информации и нелогичным действиям оппонентов. Иначе, каждое «улучшение» алгоритма станет лишь ещё одним элементом технического долга, который рано или поздно придётся выплачивать.

В конечном счёте, задача не в том, чтобы создать идеального переговорщика, а в том, чтобы понять, почему переговоры вообще возможны. И, судя по истории, ответ на этот вопрос, вероятно, окажется куда более хаотичным и иррациональным, чем любая, даже самая сложная, нейронная сеть.


Оригинал статьи: https://arxiv.org/pdf/2604.16472.pdf

Связаться с автором: https://www.linkedin.com/in/avetisyan/

Смотрите также:

2026-04-22 02:30