Торговый аукцион: Испытание интеллекта в мире стратегий

Автор: Денис Аветисян

Новый бенчмарк позволяет оценить способность искусственного интеллекта блефовать, торговаться и эффективно управлять ресурсами в сложных экономических взаимодействиях.

"Покупай на слухах, продавай на новостях". А потом сиди с акциями никому не известной биотех-компании. Здесь мы про скучный, но рабочий фундаментал.

Бесплатный Телеграм канал

Анализ производительности игровых агентов, основанный на данных, полученных из 98 канонических игр и семи больших языковых моделей с тремя агентами, специализирующимися на коде, выявил взаимосвязь между участием в аукционах, частотой переплат, количеством токенов, стоимостью операций и показателями побед, включая частоту блефа и соотношение побед преследователя и цели.

Представлен Cattle Trade — многоагентский эталон для оценки стратегического мышления и навыков ведения переговоров у больших языковых моделей.

Несмотря на успехи больших языковых моделей (LLM) в различных областях, оценка их способности к стратегическому мышлению в сложных многоагентных средах остается сложной задачей. В настоящей работе представлена новая платформа для оценки LLM — ‘Cattle Trade: A Multi-Agent Benchmark for LLM Bluffing, Bidding, and Bargaining’, объединяющая аукционы, торги, переговоры и блеф в долгосрочной экономической игре. Анализ 242 партий показал, что согласованность стратегии, эффективное использование ресурсов и адаптивность к фазе игры являются ключевыми факторами успеха, превосходящими общий объем затрат. Возможно ли разработать LLM, способные не только выигрывать в сложных экономических играх, но и демонстрировать рациональное и предсказуемое поведение?

Искусство Рациональности: Ресурсы в Конкурентной Среде

Успешное прохождение CattleTradeBenchmark напрямую зависит от эффективного управления ресурсами, требующего продуманного распределения финансовых средств. Игровой процесс представляет собой сложную задачу оптимизации, где каждое вложение капитала должно быть тщательно взвешено с учетом потенциальной выгоды и рисков. Стратегическое распределение средств позволяет не только приобретать необходимые карты для достижения цели — завершения квартетов — но и эффективно противостоять действиям оппонентов. Недостаточное внимание к управлению ресурсами может быстро привести к финансовому краху, даже при наличии перспективных карт, в то время как умелое использование доступных средств значительно повышает шансы на победу в условиях конкурентной борьбы.

Успешное завершение основной задачи — формирования квартетов — в CattleTradeBenchmark напрямую зависит от грамотной стратегии обмена и тщательной оценки ценности каждой карты. Игроки должны не просто собирать карты, но и просчитывать, какие обмены максимизируют их шансы на создание завершенных квартетов, учитывая потенциальную ценность каждой карты для соперников. Оптимизация торговых операций требует анализа текущей ситуации, прогнозирования действий оппонентов и принятия взвешенных решений, чтобы получить необходимые карты по наиболее выгодной цене. Таким образом, умение эффективно торговать и оценивать ценность карт является ключевым фактором, определяющим успех в данной среде.

В CattleTradeBenchmark существенная сложность заключается в принципиальной информационной асимметрии, с которой сталкиваются игроки. Каждый участник оперирует лишь частичным представлением о картах, находящихся в распоряжении соперников, что делает процесс принятия решений стратегически более сложным. Невозможность полного предвидения действий противника требует от игроков разработки адаптивных стратегий, основанных на вероятностных оценках и умении интерпретировать доступные сигналы. Именно эта неопределенность и необходимость действовать в условиях неполной информации делают CattleTradeBenchmark особенно интересной площадкой для изучения принципов принятия решений в конкурентной среде, где умение эффективно оценивать риски и адаптироваться к меняющимся обстоятельствам является ключом к успеху.

Анализ затрат на животных в 98 играх показывает, что различные языковые модели (LLM) и агенты, работающие на коде, демонстрируют различную экономическую эффективность, измеряемую как общая сумма затраченных монет на животное, деленная на количество сыгранных квартетов (пустые ячейки указывают на незавершенные квартеты), однако данный анализ является упрощенным и не учитывает доход от транзакций и мультипликативный эффект оценки, представленные на рисунке 3b.

Арена Стратегий: Испытание для Разумных Агентов

CattleTradeBenchmark представляет собой многоагентную среду, предназначенную для соревнований между агентами в аукционах и торговых задачах. В этой среде несколько агентов одновременно взаимодействуют, участвуя в аукционах на скот и выполняя торговые задания, что позволяет оценить их способность к стратегическому планированию и адаптации в конкурентной обстановке. Использование многоагентного подхода позволяет выявить эффективность различных стратегий и алгоритмов в динамичных и сложных условиях, где успех зависит от взаимодействия с другими участниками и способности предвидеть их действия.

В основе Benchmark лежат механизмы, такие как AuctionMechanism и TradeChallenge, разработанные для оценки глубины стратегического мышления агентов. AuctionMechanism моделирует аукционы, где агенты соревнуются за приобретение товаров, требуя от них принятия решений о ставках и времени участия, учитывая ресурсы и цели. TradeChallenge представляет собой серию торговых задач, где агенты взаимодействуют друг с другом, чтобы обменять активы, оценивая выгодность сделок и прогнозируя поведение оппонентов. Эти механизмы позволяют комплексно оценить способность агентов планировать на несколько шагов вперед, адаптироваться к меняющимся условиям и эффективно использовать доступные ресурсы для достижения поставленных целей, выходя за рамки простой оптимизации краткосрочной прибыли.

Ключевым показателем оценки производительности агентов в среде CattleTradeBenchmark является SpendEfficiency — эффективность расходования средств, рассчитываемая как общее количество полученных баллов на единицу потраченных монет. В отличие от простого подсчета выигранных сделок, данный показатель позволяет комплексно оценить стратегическую эффективность агента, учитывая соотношение между полученным результатом и затраченными ресурсами. Высокий показатель SpendEfficiency свидетельствует о способности агента оптимально использовать доступные средства для достижения максимального результата, что является приоритетным критерием при сравнении различных стратегий и моделей.

Анализ результатов, полученных на платформе CattleTradeBenchmark, показал, что, несмотря на сопоставимые с детерминированными агентами (написанными на коде) общие показатели, большие языковые модели (LLM) демонстрируют меньшую стратегическую последовательность. Это проявляется в менее предсказуемом поведении в долгосрочной перспективе и склонности к принятию решений, которые не всегда оптимальны с точки зрения общей стратегии. В то время как детерминированные агенты следуют четко определенным алгоритмам и могут планировать действия на несколько шагов вперед, LLM часто полагаются на контекст текущей ситуации, что приводит к менее когерентным и более случайным торговым стратегиям.

Анализ стратегий агентов по шести ключевым параметрам (конкурентоспособность, эффективность трат, дисциплина в аукционах, мастерство в TC, тайминг фаз и пропускная способность квартетов) демонстрирует, что LLM-агент (сплошная линия) превосходит кодового агента (пунктирная линия) по всем показателям.

Оценка Разума: От Правил к Рассуждению

Агент DeterministicCodeAgent, функционирующий на основе жестко заданных правил, используется в качестве базового уровня для сравнительного анализа. Данный тип агента реализует предопределенную логику принятия решений, не обладая способностью к адаптации или обучению в процессе взаимодействия. Его производительность служит отправной точкой для оценки более сложных агентов, использующих, например, большие языковые модели (LLM). Использование фиксированных правил обеспечивает предсказуемость поведения, что позволяет точно измерить улучшения, достигаемые за счет более гибких подходов к принятию решений. В ходе тестирования, DeterministicCodeAgent продемонстрировал наименьшую эффективность по сравнению с LLMAgent, использующим Gemini 3 Flash Preview, что подтверждает необходимость разработки адаптивных стратегий для достижения более высоких результатов.

В отличие от агентов, управляемых жестко заданными правилами, LLMAgent использует возможности больших языковых моделей (LLM) для динамической адаптации своей стратегии. Это позволяет агенту не просто следовать заранее определенным инструкциям, а анализировать текущую ситуацию и корректировать свои действия в процессе взаимодействия, что потенциально приводит к более эффективному и гибкому поведению в различных сценариях. Такой подход позволяет LLMAgent избегать статических ограничений и лучше реагировать на изменения в игровой среде или задачах, с которыми он сталкивается.

В ходе оценки агентов, модель Gemini 3 Flash Preview продемонстрировала показатель trueSkill μ, равный 30.1±3.3. Этот результат превзошел показатели шести из семи протестированных больших языковых моделей (LLM) и всех агентов, основанных на детерминированном коде. Показатель trueSkill μ является мерой относительного мастерства агента, при этом более высокое значение указывает на более высокую производительность. Стандартное отклонение в ±3.3 указывает на разброс результатов, полученных моделью в различных играх или сценариях.

В ходе соревнований Gemini 3 Flash Preview показал коэффициент побед в 72.9% против всех оппонентов. Это означает, что в 72.9% случаев модель Gemini 3 Flash Preview превосходила своих конкурентов в задачах, оцениваемых в рамках эксперимента. Данный показатель является ключевым для оценки эффективности агента и демонстрирует его способность успешно применять стратегию и достигать поставленных целей в соревновательной среде.

В отличие от детерминированных агентов, которые склонны к ошибкам, таким как чрезмерные ставки (Overbidding) и контрпродуктивная спираль самоставок (SelfBiddingSpiral), LLMAgent демонстрирует способность избегать этих ловушек. Детерминированные агенты, действуя по заранее заданным правилам, часто переоценивают ресурсы, что приводит к неэффективному расходованию капитала и снижению итогового результата. LLMAgent, используя возможности больших языковых моделей, адаптирует стратегию ставок в процессе взаимодействия, что позволяет ему более эффективно управлять ресурсами и избегать неоптимальных сценариев, характерных для агентов, основанных на фиксированных правилах.

Показатель капитальной эффективности $η = score/gross outflow$ для Gemini 3 Flash Preview составил 1.77, что является наивысшим значением среди протестированных больших языковых моделей (LLM). Этот показатель отражает, что на каждый единицу затраченных ресурсов (валового оттока капитала) модель генерирует 1.77 единицы результата (оценки). Более высокий показатель капитальной эффективности свидетельствует о более эффективном использовании ресурсов и способности модели достигать лучших результатов при тех же или меньших затратах по сравнению с другими LLM, участвовавшими в тестировании.

В условиях торговли с неполной информацией, где значения карт известны, но предложения скрыты, агенты TrackerAgent и SetRaceAgent превзошли шесть и пять из семи больших языковых моделей в 98 канонических играх, демонстрируя способность к блефу и стратегическому принятию решений (μ ± [latex]\pm std[/latex]). — В условиях торговли с неполной информацией, где значения карт известны, но предложения скрыты, агенты TrackerAgent и SetRaceAgent превзошли шесть и пять из семи больших языковых моделей в 98 канонических играх, демонстрируя способность к блефу и стратегическому принятию решений (μ ± $\pm std$ ).

Сила Адаптации: Блеф и Стратегическая Торговля

В рамках соревновательной платформы TradeChallenge, обусловленная асимметрией информации предоставляет агентам возможность применять тактику блефа для введения оппонентов в заблуждение. Игроки не располагают полным знанием о предложениях и намерениях других участников, что создает условия для стратегического обмана. Искусные агенты способны намеренно завышать или занижать свои предложения, маскируя истинную ценность ресурсов и стремясь получить выгодные сделки. Эффективное использование блефа требует оценки вероятности успеха обмана и потенциальных рисков разоблачения, что делает данную тактику сложной, но потенциально прибыльной в условиях ограниченной информации и конкурентной борьбы.

Адаптивная стратегия LLMAgent позволяет эффективно использовать скрытые предложения и оценивать соотношение риска и выгоды в ситуациях, связанных с блефом. Агент не просто делает случайные ставки, а анализирует поведение оппонентов и формирует предложения, которые кажутся выгодными, но при этом позволяют сохранить ресурсы или получить преимущество. Оценка риска при этом происходит динамически, учитывая вероятность успеха блефа и потенциальные потери в случае его раскрытия. Такой подход позволяет LLMAgent не только обманывать оппонентов, но и выявлять их блеф, что значительно повышает его эффективность в конкурентной среде и способствует оптимизации расходования ресурсов.

Способность адаптироваться к изменяющимся условиям и эффективно использовать информационные пробелы в переговорах напрямую влияет на повышение эффективности расходования ресурсов и общую результативность агентов. Исследования показали, что модели, демонстрирующие гибкость в оценке рисков и возможностей, связанных с неполной информацией, достигают более высоких показателей в конкурентных экономических средах. Умение выявлять и эксплуатировать несоответствия в знаниях оппонентов позволяет оптимизировать стратегии торговли, избегать невыгодных сделок и, как следствие, максимизировать ценность полученных ресурсов. Данный феномен подчеркивает важность не только доступа к информации, но и способности к её анализу и использованию для достижения оптимальных результатов в сложных экономических взаимодействиях.

В ходе анализа стратегий различных моделей в рамках соревновательной среды TradeChallenge было выявлено, что модели Haiku и G2.5-FL демонстрируют значительный уровень переоценки ресурсов — от 0,87% до 1,20%. Данный показатель свидетельствует о неэффективном управлении ресурсами и склонности к принятию неоптимальных решений. В частности, переоценка указывает на неспособность этих моделей адекватно оценивать истинную стоимость предложений и, как следствие, на склонность к излишним тратам, что существенно снижает их конкурентоспособность в условиях ограниченных ресурсов и необходимости максимизации прибыли.

Представленный бенчмарк наглядно демонстрирует, что в конкурентной экономической среде успех напрямую зависит от способности к гибкому мышлению. Агенты, обладающие развитыми навыками адаптации и способные оперативно перестраивать стратегии в ответ на меняющиеся обстоятельства, демонстрируют значительно более высокую эффективность. Именно умение анализировать ситуацию, оценивать риски и находить оптимальные решения, даже в условиях неполной информации, позволяет им превосходить соперников и достигать поставленных целей. Отсутствие подобной гибкости приводит к неэффективному использованию ресурсов и снижению общей производительности, подчеркивая важность развития способностей к логическому анализу и принятию взвешенных решений в динамичной экономической среде.

Анализ устойчивости LLM в различных комбинациях агентов (exp2_all7, 168 игр) показывает, что высокая эффективность достигается при сочетании агентов, демонстрирующих стабильно высокие показатели в различных игровых сценариях, что подтверждается как экономической эффективностью (η) так и жёсткостью ограничений (τ), при этом размер маркера на графике отражает общую частоту побед.

Представленное исследование, посвященное разработке бенчмарка Cattle Trade, подчеркивает важность простоты и ясности в оценке сложных систем. Авторы стремятся создать среду, где стратегическое мышление и управление ресурсами моделей оцениваются максимально объективно. Это согласуется с принципом, высказанным Брайаном Керниганом: «Простота — это высшая степень совершенства». Идея бенчмарка, позволяющая оценить способность моделей к блефу и ведению переговоров, требует четкого определения правил и минимизации избыточной сложности. Сложность, как показывает исследование, должна быть инструментом моделирования реальности, а не препятствием для понимания и оценки эффективности модели.

Что дальше?

Представленная работа, по сути, лишь обнажает глубину нерешенных вопросов. Оценка стратегического мышления, как показывает «Cattle Trade», — это не столько задача машинного обучения, сколько выявление границ самого понятия рациональности. Иллюзия компетентности, порождаемая сложными моделями, требует постоянной переоценки. Важно помнить: блеф эффективен лишь до тех пор, пока его не распознают.

Будущие исследования, вероятно, сместятся от простого увеличения масштаба моделей к разработке более изящных метрик, способных различать истинное понимание экономической динамики и умение имитировать таковое. Прозрачность принятия решений — не ограничение, а необходимое условие доверия. И, да, вопрос о переносе результатов, полученных в симуляции «Cattle Trade», в реальные экономические системы остается открытым. Простота — это не слабость, а признак силы.

Ясность — это минимальная форма любви. И в контексте оценки искусственного интеллекта, она проявляется в честном признании границ наших знаний и возможностей. Искать совершенство в сложности — тщеславие. Истинная польза — в умении отбросить лишнее и увидеть суть.

Оригинал статьи: https://arxiv.org/pdf/2605.14537.pdf

Связаться с автором: https://www.linkedin.com/in/avetisyan/

Смотрите также:

2026-05-18 01:17