Обучение агентов в условиях неопределенности: надежные стратегии для многоагентных систем

Автор: Денис Аветисян


Новый алгоритм RQRE-OVI позволяет многоагентным системам эффективно обучаться и находить устойчивые решения даже в сложных и непредсказуемых средах.

"Покупай на слухах, продавай на новостях". А потом сиди с акциями никому не известной биотех-компании. Здесь мы про скучный, но рабочий фундаментал.

Бесплатный Телеграм канал
Агенты, использующие стратегии NQOVI, QRE и низкую степень неприятия риска, сходятся к доминирующим по выплатам исходам, связанным с координацией на охоте на оленей, в то время как агенты с высокой степенью неприятия риска неизменно выбирают более безопасную, но менее выгодную стратегию охоты на зайцев, подтверждая предсказуемый выбор равновесия.
Агенты, использующие стратегии NQOVI, QRE и низкую степень неприятия риска, сходятся к доминирующим по выплатам исходам, связанным с координацией на охоте на оленей, в то время как агенты с высокой степенью неприятия риска неизменно выбирают более безопасную, но менее выгодную стратегию охоты на зайцев, подтверждая предсказуемый выбор равновесия.

Представлен алгоритм, гарантирующий эффективное обучение надежных и вычислительно-трактных равновесий в многоагентном обучении с подкреплением и линейной аппроксимацией функций.

Вычисление равновесий в многоагентных играх с неопределенностью остается сложной задачей, особенно в условиях ограниченной рациональности и неточности аппроксимаций. В данной работе, посвященной теме ‘Strategically Robust Multi-Agent Reinforcement Learning with Linear Function Approximation’, предложен алгоритм RQRE-OVI, предназначенный для обучения устойчивым и вычислительно эффективным равновесиям, сочетающим в себе риск-чувствительность, ограниченную рациональность и оптимистическую итерацию значений. Полученные теоретические результаты демонстрируют сходимость алгоритма и характеризуют зависимость сложности обучения от параметров рациональности и чувствительности к риску, выявляя компромисс между ожидаемой производительностью и устойчивостью. Можно ли использовать полученные результаты для разработки более надежных и обобщаемых стратегий в сложных многоагентных системах?


Пределы Традиционной Теории Игр: Эхо Несовершенства

Классическая теория игр, несмотря на свою элегантность и математическую строгость, опирается на упрощающие предположения, которые редко встречаются в реальных ситуациях. Она предполагает, что участники взаимодействия обладают полной информацией о стратегиях и выгодах других игроков, а также способны к абсолютно рациональному анализу и принятию оптимальных решений. Однако, в большинстве жизненных сценариев, информация ограничена, а поведение людей подвержено когнитивным искажениям, эмоциям и эвристикам. Это означает, что предсказания, основанные на предположении о совершенной рациональности, часто расходятся с наблюдаемой реальностью, поскольку игроки действуют не как максимизаторы выгоды, а как «ограниченно рациональные» субъекты, принимающие решения на основе неполной информации и упрощенных моделей мира. Таким образом, необходимость адаптации и развития теории игр для учета этих факторов становится очевидной для более точного моделирования и понимания сложных социальных взаимодействий.

Равновесие Нэша, являясь краеугольным камнем традиционной теории игр, часто дает неправдоподобные прогнозы поведения игроков в реальных ситуациях. Это связано с тем, что модель предполагает абсолютную рациональность и полную информацию, игнорируя когнитивные ограничения и неполноту данных, свойственные людям. В частности, игроки, обладающие ограниченной рациональностью, могут не всегда стремиться к оптимальной стратегии, предсказанной равновесием Нэша, а довольствоваться удовлетворительным решением, требующим меньших вычислительных усилий. Более того, в условиях высокой сложности и неопределенности, игроки склонны к упрощению задач и использованию эвристик, что приводит к отклонениям от предсказаний модели и формированию альтернативных равновесий, более соответствующих реальным условиям и когнитивным возможностям участников.

Существующие методы анализа стратегических взаимодействий часто оказываются неспособны адекватно отразить присущую им неопределенность и неприятие риска. Традиционные модели, как правило, предполагают, что игроки принимают решения на основе полной информации и рационального расчета выгоды, что далеко не всегда соответствует действительности. В реальности, решения принимаются в условиях неполноты данных, вероятностных оценок и субъективного восприятия риска, что приводит к отклонениям от предсказанных равновесий. Особенно остро эта проблема проявляется в сложных стратегических ситуациях, где множество факторов оказывают влияние на исход, а последствия решений могут быть непредсказуемыми. В результате, предсказательная сила традиционных методов снижается, а необходимость разработки новых подходов, учитывающих психологические и поведенческие аспекты принятия решений, становится все более очевидной.

В ходе обучения с самоигрой наблюдается, что в задаче
В ходе обучения с самоигрой наблюдается, что в задаче «Охота на оленя» увеличение параметра au способствует достижению оптимального результата (оленя, оленя), в то время как уменьшение этого параметра приводит к более устойчивой, но менее выгодной стратегии (зайца, зайца), а в «Overcooked» все варианты RQRE и QRE сходятся к сопоставимым результатам командной работы, при этом варианты Nash достигают аналогичных или немного более низких уровней.

Квантовый Ответ: Моделирование Ограниченной Рациональности

Модель QuantalResponseEquilibrium (QRE) представляет собой усовершенствованный подход к моделированию поведения игроков в стратегических взаимодействиях, отличающийся от традиционных моделей равновесия Нэша. В QRE вероятность выбора игроком конкретной стратегии определяется не только ожидаемой выгодой от этой стратегии, но и её относительным положением по сравнению с другими доступными стратегиями. Игроки не всегда выбирают стратегию с наивысшей ожидаемой выгодой; вместо этого, вероятность выбора стратегии пропорциональна экспоненте её ожидаемой выгоды, разделенной на параметр «температуры» τ. Низкое значение τ соответствует более рациональному поведению, приближающемуся к равновесию Нэша, в то время как высокое значение допускает более случайный выбор действий, отражая ограниченную рациональность и возможность ошибок.

Традиционные модели теории игр часто предполагают полную рациональность игроков, что означает принятие оптимальных решений в каждой ситуации. Однако, модель квантового ответа учитывает возможность совершения ошибок при выборе стратегии, основываясь на вероятностном подходе. Вместо детерминированного выбора наиболее выгодного действия, игрок выбирает стратегии с вероятностью, пропорциональной ожидаемой выплате, что отражает когнитивные ограничения и неточности в процессе принятия решений. Это позволяет получать более реалистичные и правдоподобные прогнозы поведения игроков, поскольку учитывает, что реальные люди не всегда действуют идеально рационально, а подвержены влиянию случайных факторов и ошибок.

Использование функций RiskSensitiveObjective позволяет моделировать игроков, демонстрирующих неприятие или склонность к риску, что существенно расширяет возможности стратегического моделирования. В традиционных моделях предполагается, что игроки стремятся максимизировать ожидаемую полезность. Функции RiskSensitiveObjective вводят параметр, определяющий отношение игрока к риску. Отрицательное значение параметра указывает на неприятие риска, когда игрок предпочитает более надежный, хотя и менее прибыльный исход. Положительное значение, напротив, указывает на склонность к риску, когда игрок готов рисковать ради потенциально более высокой прибыли. Это позволяет более точно отражать поведение игроков в реальных ситуациях, где решения часто принимаются с учетом не только ожидаемой прибыли, но и вероятности различных исходов и индивидуальной толерантности к риску.

Эксперименты с нарушением взаимодействия с партнером показали, что разработанная политика сохраняет эффективность в условиях преднамеренных отклонений в действиях партнера как в игре Stag Hunt, так и в Overcooked, что подтверждается устойчивым вознаграждением, несмотря на замену действий партнера на детерминированные с вероятностью δ.
Эксперименты с нарушением взаимодействия с партнером показали, что разработанная политика сохраняет эффективность в условиях преднамеренных отклонений в действиях партнера как в игре Stag Hunt, так и в Overcooked, что подтверждается устойчивым вознаграждением, несмотря на замену действий партнера на детерминированные с вероятностью δ.

Обучение с Подкреплением: Адаптация Стратегии в Действии

Применение алгоритма `OptimisticValueIteration` в рамках модели `MarkovGame` обеспечивает возможность обучения агентов оптимальным стратегиям на основе получаемого опыта, даже в сложных игровых сценариях. Данный подход позволяет агентам исследовать пространство состояний и действий, формируя оценки ценности состояний, основанные на предположении об оптимальности действий. В процессе обучения, агенты корректируют эти оценки, основываясь на полученных наградах, что приводит к постепенному сближению с оптимальной политикой. Эффективность алгоритма проявляется в его способности адаптироваться к различным структурам игр и находить решения, даже когда пространство состояний значительно велико и требует эффективных методов исследования.

Использование линейной аппроксимации функций (Linear Function Approximation) является ключевым методом масштабирования алгоритмов обучения с подкреплением для работы с пространствами состояний высокой размерности. В традиционных алгоритмах, требующих хранения значений для каждого состояния, это становится непрактичным при большом количестве возможных состояний. Линейная аппроксимация позволяет представить функцию ценности или политики как линейную комбинацию признаков, что значительно снижает требования к памяти и вычислительным ресурсам. Это достигается за счет аппроксимации функции с помощью векторов признаков, описывающих каждое состояние, и нахождения оптимальных весов для этих признаков. Такой подход позволяет обобщать знания, полученные в одном состоянии, на другие, схожие состояния, что делает алгоритмы применимыми к реальным задачам, характеризующимся сложными и многомерными пространствами состояний.

Результаты строгого анализа производительности разработанных алгоритмов демонстрируют предельную оценку сожаления (regret bound), выраженную как Õ(Lenv <i> B </i> K <i> d^3 </i> H^3) + KH(εenv + Lenv(εpol + εeq)). Здесь, Lenv представляет сложность игровой среды, B — горизонт планирования, K — количество агентов, d — размерность пространства состояний, а H — максимальное количество действий. Величины εenv, εpol и εeq отражают ошибки аппроксимации, связанные с моделью среды, политикой и функцией ценности соответственно. Данная оценка позволяет количественно оценить влияние различных параметров на эффективность обучения и гарантирует сходимость алгоритма к оптимальной стратегии при заданных условиях.

На графиках показано, как добавление шума в действия партнера (δ) влияет на удержание игроков в играх Stag-Hunt (слева) и Overcooked (справа), при этом более высокие значения нормализованного удержания ([latex]R(\\delta)/R(0)[/latex]) указывают на устойчивость к помехам, а более низкие - на снижение производительности.
На графиках показано, как добавление шума в действия партнера (δ) влияет на удержание игроков в играх Stag-Hunt (слева) и Overcooked (справа), при этом более высокие значения нормализованного удержания (R(\\delta)/R(0)) указывают на устойчивость к помехам, а более низкие — на снижение производительности.

Устойчивость и Реальное Применение: От Модели к Практике

Исследование продемонстрировало эффективность предложенных методов в сложных игровых сценариях, используя в качестве тестовых площадок такие игры, как OvercookedGame и StagHuntGame. Эти игры, требующие координации и стратегического взаимодействия между агентами, позволили оценить способность системы эффективно функционировать как в кооперативных, так и в конкурентных условиях. В OvercookedGame, где важна слаженная работа для достижения общей цели, система продемонстрировала способность к адаптации и координации действий. В то время как в StagHuntGame, требующей оценки рисков и выбора между сотрудничеством и индивидуальной выгодой, система успешно справлялась с неопределенностью и находила оптимальные стратегии. Такой подход подтверждает практическую применимость и надежность разработанной системы в реальных, динамичных средах, где взаимодействие между агентами играет ключевую роль.

Полученное равновесие квантового ответа на риск \text{RiskQuantalResponseEquilibrium} представляет собой более устойчивую и реалистичную модель поведения агентов в условиях неопределенности. В отличие от традиционных подходов, предполагающих полностью рациональных игроков, данная модель учитывает, что агенты могут совершать ошибки и отклоняться от оптимальной стратегии, особенно когда сталкиваются с рисками и неполной информацией. Это позволяет получить более правдоподобные прогнозы поведения в сложных сценариях, где агенты взаимодействуют друг с другом и принимают решения в условиях неполной информации. Модель демонстрирует, что даже небольшие отклонения от рациональности могут существенно повлиять на итоговый результат, что особенно важно при моделировании социальных взаимодействий и экономических процессов, где поведение людей часто обусловлено не только рациональными соображениями, но и психологическими факторами.

Предложенная структура демонстрирует повышенную устойчивость к изменениям в распределении вероятностей, что особенно важно в реальных, непредсказуемых средах. Ключевым аспектом является гарантия липшицевой непрерывности отображения стратегий, что означает, что небольшие изменения во входных данных приводят лишь к небольшим изменениям в выбранной стратегии. Это свойство обеспечивает сходимость алгоритмов даже при наличии ошибок аппроксимации, делая систему надежной и предсказуемой в динамических условиях. L-непрерывность позволяет эффективно контролировать чувствительность политики к возмущениям, что критически важно для практического применения в сложных задачах, где точные данные часто недоступны.

Эксперименты проводились в средах Dynamic Stag Hunt и Overcooked, представляющих собой задачи, требующие координации и стратегического взаимодействия.
Эксперименты проводились в средах Dynamic Stag Hunt и Overcooked, представляющих собой задачи, требующие координации и стратегического взаимодействия.

Исследование, представленное в данной работе, подчеркивает важность не просто достижения равновесия в многоагентном обучении с подкреплением, но и обеспечения его устойчивости к неопределенности и рискам. Алгоритм RQRE-OVI, стремясь к нахождению надежного равновесия, отражает глубокое понимание того, что системы — это не статичные конструкции, а сложные экосистемы, подверженные внешним воздействиям. Брайан Керниган однажды заметил: «Отладка — это процесс вычитания». Подобно этому, в многоагентных системах, стремление к надежности требует постоянного анализа и адаптации к меняющимся условиям, поскольку любое архитектурное решение несет в себе предсказание о будущей уязвимости. Иными словами, проектирование устойчивой системы — это не столько создание идеальной структуры, сколько постоянное вычитание потенциальных точек отказа.

Что Дальше?

Представленный подход, стремящийся к созданию устойчивых равновесий в многоагентном обучении с подкреплением, лишь приоткрывает завесу над сложной природой систем. Каждая зависимость от линейного приближения функций — это обещание, данное прошлому, гарантия вычислимой трактовности, но и потенциальный источник хрупкости. Попытки “построить” равновесие, даже опираясь на оптимистическую итерацию ценностей, неизбежно сталкиваются с тем фактом, что системы живут циклами. Всё, что создано, когда-нибудь начнёт само себя чинить, а значит, и адаптироваться к непредсказуемым изменениям в окружении и поведении агентов.

Поиск действительно надежных алгоритмов требует смещения фокуса с контроля к пониманию. Контроль — это иллюзия, требующая соглашения об уровне обслуживания (SLA), а устойчивость рождается из способности системы к самовосстановлению и адаптации. Следующим шагом видится исследование методов, позволяющих агентам не только учиться оптимальным стратегиям, но и предвидеть, оценивать и смягчать последствия собственных ошибок и ошибок других.

Вместо того чтобы стремиться к идеальному равновесию, возможно, стоит сосредоточиться на создании систем, способных к грациозной деградации. Систем, которые, столкнувшись с неизбежным сбоем, не рухнут, а найдут способ продолжить функционирование, пусть и в ограниченном режиме. Ведь в конечном итоге, важна не столько способность системы к идеальному функционированию, сколько её способность к выживанию.


Оригинал статьи: https://arxiv.org/pdf/2603.09208.pdf

Связаться с автором: https://www.linkedin.com/in/avetisyan/

Смотрите также:

2026-03-11 13:27