Умные светофоры: обучение с подкреплением для оптимизации трафика

Автор: Денис Аветисян

Новая система, основанная на многоагентном обучении с подкреплением, позволяет значительно повысить эффективность управления дорожным движением в динамичных условиях.

"Покупай на слухах, продавай на новостях". А потом сиди с акциями никому не известной биотех-компании. Здесь мы про скучный, но рабочий фундаментал.

Бесплатный Телеграм канал

Терминология, касающаяся трафика, структурирована для обеспечения чёткости и единообразия в анализе и управлении транспортными потоками.

Предложенная архитектура использует централизованное обучение с децентрализованным выполнением, рандомизацию параметров и экспоненциальную настройку фаз для обеспечения масштабируемости и устойчивости в различных сценариях.

Несмотря на значительный прогресс в области обучения с подкреплением, адаптация алгоритмов к динамически меняющимся транспортным потокам остается сложной задачей. В настоящей работе, посвященной разработке ‘A Robust and Efficient Multi-Agent Reinforcement Learning Framework for Traffic Signal Control’, предложен надежный и масштабируемый многоагентный подход, использующий рандомизацию коэффициентов поворота, экспоненциальную настройку длительности фаз и алгоритм CTDE для повышения эффективности и обобщающей способности системы управления светофорами. Эксперименты в симуляторе Vissim показали, что предложенная модель превосходит стандартные методы обучения с подкреплением, снижая среднее время ожидания более чем на 10%. Возможно ли дальнейшее улучшение устойчивости и адаптивности предложенного фреймворка к непредсказуемым изменениям в транспортной сети?

Задачи и Беспокойства Городского Движения

Традиционные методы управления дорожным движением, такие как фиксированные планы переключения светофоров и эвристика MaxPressure, испытывают трудности при адаптации к постоянно меняющейся дорожной обстановке, что неизбежно приводит к образованию пробок и задержкам. Данные подходы, основанные либо на заранее установленных схемах, либо на реактивном приоритете очередей, не способны предвидеть или эффективно предотвращать возникновение новых узких мест. В результате, даже незначительные колебания трафика могут приводить к значительным заторам, увеличивая время в пути и негативно сказываясь на экономике и окружающей среде. Ограниченная способность этих систем к адаптации подчеркивает необходимость разработки более гибких и интеллектуальных решений для управления транспортными потоками в современных городских условиях.

Традиционные системы управления дорожным движением, как правило, опираются на заранее заданные стратегии или реактивное управление очередями транспортных средств. Это означает, что они либо действуют по жесткому расписанию, не учитывая текущую ситуацию на дорогах, либо реагируют на уже возникшие заторы, пытаясь их разрешить. Однако, такой подход не позволяет предвидеть и предотвращать образование новых «узких мест» в транспортном потоке. Вместо проактивного управления, системы лишь констатируют факт возникновения проблемы и пытаются смягчить её последствия, что приводит к увеличению времени в пути, задержкам и, как следствие, к экономическим и экологическим издержкам. Отсутствие способности предвидеть и смягчать возникающие препятствия является ключевым недостатком этих методов, ограничивающим их эффективность в условиях динамично меняющейся дорожной обстановки.

Неэффективная работа светофоров оказывает прямое влияние на ключевые показатели транспортной системы, такие как среднее время в пути, средняя задержка и интенсивность транспортного потока, что приводит к существенным экономическим и экологическим издержкам. Например, анализ работы алгоритма MaxPressure показывает, что среднее время в пути одного транспортного средства в часы пик достигает 265.79 секунд. Такие показатели свидетельствуют о значительных потерях рабочего времени, повышенном расходе топлива и увеличении выбросов вредных веществ в атмосферу, что подчеркивает необходимость разработки и внедрения более адаптивных и эффективных систем управления транспортными потоками.

График демонстрирует синхронизацию подачи сигнала и транспортного спроса.

Многоагентное Обучение с Подкреплением: Новый Взгляд на Управление Движением

Многоагентное обучение с подкреплением (MARL) представляет собой перспективный подход к адаптивному управлению дорожным движением, позволяющий реализовать децентрализованное управление светофорами. В отличие от традиционных централизованных систем, MARL позволяет каждому перекрестку функционировать как независимый агент, самостоятельно принимающий решения на основе текущей ситуации и взаимодействия с окружающей средой. Такая архитектура позволяет динамически оптимизировать работу всей транспортной сети, реагируя на изменения трафика в реальном времени и избегая единых точек отказа, что повышает общую эффективность и устойчивость транспортной системы.

В многоагентном обучении с подкреплением (MARL) управление транспортным потоком осуществляется посредством множества агентов, каждый из которых отвечает за отдельный перекресток. Агенты обучаются оптимальным стратегиям взаимодействия с симулированной средой, такой как Vissim, посредством проб и ошибок и получения вознаграждения за улучшение показателей транспортного потока, таких как среднее время проезда или пропускная способность. Этот подход позволяет каждому агенту адаптироваться к локальным условиям и совместно оптимизировать работу всей сети перекрестков, не требуя централизованного планирования или обмена данными между агентами в процессе эксплуатации.

Централизованное обучение с децентрализованным исполнением (Centralized Training with Decentralized Execution, CTDE) представляет собой парадигму обучения, позволяющую агентам, работающим в многоагентной среде, координировать свои действия во время фазы обучения, используя глобальную информацию. Во время развертывания (исполнения) каждый агент действует независимо, основываясь на локальных наблюдениях и выученной политике. Такой подход позволяет добиться более эффективной координации и, как следствие, повышения производительности системы в целом. Преимущество CTDE заключается в сочетании преимуществ централизованного планирования — координации и оптимизации — с преимуществами децентрализованного исполнения — масштабируемости и устойчивости к отказам отдельных агентов, что критически важно для реальных сценариев применения, например, управления транспортным потоком.

Алгоритм MAPPO (Multi-Agent Proximal Policy Optimization) обеспечивает эффективное обучение агентов в системах многоагентного обучения с подкреплением. В основе MAPPO лежит алгоритм Proximal Policy Optimization (PPO), который гарантирует стабильное обучение за счет ограничения изменений в политике агентов на каждом шаге. Это достигается путем использования функции потерь, включающей «обрезанное» отношение вероятностей, предотвращающее слишком резкие обновления политики и обеспечивающее более плавную сходимость. В контексте MARL, MAPPO позволяет каждому агенту (контролирующему отдельный перекресток) оптимизировать свою политику, минимизируя функцию потерь и максимизируя вознаграждение, получаемое от симулированной среды, такой как Vissim. Использование PPO в MAPPO способствует снижению дисперсии градиентов и повышению стабильности обучения в сложных многоагентных средах.

Оптимизация Пространств Наблюдений и Действий: Баланс между Эффективностью и Сложностью

Эффективная реализация многоагентного обучения с подкреплением (MARL) требует тщательного выбора области наблюдения. Глобальное наблюдение, предоставляя полную информацию о состоянии всей системы, не масштабируется при увеличении числа агентов и сложности среды. Локальное наблюдение, напротив, ограничивает осведомленность каждого агента, что снижает его способность к эффективному принятию решений. В качестве компромисса используется наблюдение на основе соседей (Neighbor-Based Observation), которое позволяет агенту получать информацию о ближайшем окружении, обеспечивая достаточный уровень осведомленности без чрезмерной вычислительной нагрузки и проблем масштабируемости, характерных для глобального наблюдения.

Проектирование пространства действий имеет критическое значение для эффективности алгоритмов MARL. Линейная корректировка длительности фаз светофора может оказаться недостаточной для точного управления транспортным потоком, особенно в условиях высокой загруженности. В отличие от этого, экспоненциальная корректировка длительности фаз обеспечивает более тонкую настройку и оперативную реакцию на изменения в трафике. Это позволяет агентам адаптироваться к сложным сценариям и оптимизировать пропускную способность перекрестков, обеспечивая более плавное и эффективное движение транспортных средств. Использование экспоненциальной корректировки позволяет агентам более точно реагировать на динамически меняющуюся ситуацию и избегать заторов.

Для повышения устойчивости к непредсказуемым дорожным ситуациям в процессе обучения используется стратегия рандомизации коэффициентов поворота (Turning Ratio Randomization). Данный подход заключается в случайном варьировании вероятности совершения агентами поворотов во время тренировки. Это позволяет расширить спектр сценариев, с которыми сталкиваются агенты, и, как следствие, улучшить их способность адаптироваться к новым, ранее не встречавшимся условиям дорожного движения. В результате, агенты становятся более надежными и эффективными в различных, в том числе непредсказуемых, ситуациях на дороге.

Моделирование с использованием модели следования за автомобилем Видемана в Vissim продемонстрировало значительное улучшение среднего времени ожидания и общей пропускной способности транспортного потока по сравнению с традиционными методами. Предложенный фреймворк позволил снизить среднее время ожидания более чем на 10% в непредсказуемых транспортных сценариях. В частности, среднее время в пути составило 230.58 с/транспортное средство в часы пик, и 124.37 с/транспортное средство в часы низкой загруженности при использовании рандомизированного обучения, а также 119.32 с/транспортное средство в часы низкой загруженности при использовании глобального рандомизированного обучения.

Пространство действий определяется установкой длительности следующей фазы с небольшими изменениями.

К Интеллектуальным и Адаптивным Городам: Взгляд в Будущее Транспортной Инфраструктуры

Успешное внедрение многоагентного обучения с подкреплением (MARL) для управления дорожными светофорами открывает перспективные возможности для снижения загруженности городских магистралей, улучшения экологической обстановки и повышения качества жизни горожан. Эта технология позволяет динамически адаптировать режимы работы светофоров к текущей транспортной ситуации, минимизируя задержки и увеличивая пропускную способность дорог. В результате, не только сокращается время в пути для водителей и пассажиров, но и снижается потребление топлива и выбросы вредных веществ в атмосферу, способствуя созданию более здоровой и комфортной городской среды. Эффективное управление транспортными потоками, основанное на MARL, может стать ключевым элементом интеллектуальной городской инфраструктуры, обеспечивая устойчивое развитие и повышая привлекательность городов для жизни и работы.

Алгоритмы многоагентного обучения с подкреплением (MARL) демонстрируют способность существенно сокращать задержки в транспортных потоках и увеличивать пропускную способность дорожных сетей благодаря динамической адаптации к текущей ситуации. Вместо использования фиксированных временных интервалов, MARL анализирует данные о трафике в реальном времени и оперативно корректирует сигналы светофоров, что позволяет более эффективно распределять транспортные потоки. Такая оптимизация не только снижает время в пути для автомобилистов, но и ведет к значительным экономическим выгодам, включая сокращение потерь времени в пробках, уменьшение расхода топлива и снижение выбросов вредных веществ в атмосферу. Подобные системы позволяют городам более эффективно использовать существующую инфраструктуру и повышать качество жизни населения.

Основой для создания устойчивых и интеллектуальных городов представляется мультиагентное обучение с подкреплением (MARL), благодаря его способности к масштабированию и адаптации к постоянно меняющимся условиям. В отличие от традиционных систем управления транспортными потоками, требующих ручной настройки и не способных эффективно реагировать на внезапные изменения, MARL позволяет создавать самообучающиеся сети, которые оптимизируют работу всей транспортной системы в режиме реального времени. Эта адаптивность особенно важна в условиях растущей урбанизации, когда транспортные сети испытывают всё большую нагрузку, а необходимость в эффективных и устойчивых решениях становится всё более острой. Способность MARL к масштабированию означает, что данная технология может быть успешно внедрена как в небольших городах, так и в крупных мегаполисах, адаптируясь к их уникальным особенностям и потребностям, что делает ее перспективным инструментом для создания более гибких и устойчивых транспортных систем будущего.

Перспективные исследования направлены на интеграцию мультиагентного обучения с подкреплением (MARL) с другими передовыми технологиями интеллектуального транспорта, в частности, с подключенными и автономными транспортными средствами. Предполагается, что такое сочетание позволит значительно повысить эффективность управления транспортными потоками, создавая синергетический эффект. Взаимодействие MARL, способного к адаптивному управлению светофорами, с автономными автомобилями, способными к обмену данными и координации действий, позволит оптимизировать не только пропускную способность дорог, но и снизить вероятность возникновения заторов и аварийных ситуаций. Разработка комплексных систем, объединяющих эти технологии, является ключевым направлением для создания действительно «умных» городов, способных эффективно решать проблемы мобильности и обеспечивать комфортное передвижение для всех участников дорожного движения.

В данной работе предложен фреймворк для управления транспортными потоками, основанный на многоагентном обучении с подкреплением. Авторы стремятся к созданию системы, способной адаптироваться к динамичным условиям, что, конечно, благородно. Однако, стоит помнить, что любая элегантная теория неизбежно столкнется с суровой реальностью продакшена. Как говорил Пол Эрдёш: «Не существует красивой математики, есть только математика, которая еще не проверена на ошибках». В контексте управления трафиком это означает, что даже самый совершенный алгоритм рано или поздно обнаружит уязвимость в условиях непредсказуемого поведения водителей и внезапных изменений дорожной обстановки. Поэтому, предложенные методы рандомизации и экспоненциальной корректировки фаз представляются скорее попыткой отсрочить неизбежное, нежели создать полностью самовосстанавливающуюся систему.

Что Дальше?

Представленная работа, как и большинство «инноваций» в области управления транспортными потоками, демонстрирует, что элегантные алгоритмы неизбежно сталкиваются с суровой реальностью эксплуатации. Успех предложенного подхода, основанного на многоагентном обучении с подкреплением, в симуляторе Vissim — это, безусловно, достижение. Однако, необходимо помнить: каждая симуляция — это упрощение, а реальный мир полон непредсказуемых факторов, которые рано или поздно сведут на нет все теоретические преимущества. Вопрос не в том, насколько хорошо алгоритм работает в идеальных условиях, а в том, как быстро он начнет давать сбои, когда к нему прикоснется «прод».

Следующим шагом, вероятно, станет усложнение модели, добавление все новых и новых факторов, которые якобы приблизят ее к реальности. Но это лишь откладывает неизбежное. Вместо того, чтобы бесконечно усложнять архитектуру, возможно, стоит задуматься о более простых и надежных решениях. Нам не нужно больше микросервисов — нам нужно меньше иллюзий. Истинный прогресс заключается не в создании все более сложных алгоритмов, а в понимании фундаментальных ограничений и адаптации к ним.

В конечном счете, каждая «революционная» технология завтра станет техдолгом. Успех этой работы, как и любой другой, будет измерен не количеством опубликованных статей, а способностью алгоритма выдержать проверку временем и эксплуатацией. И, вероятно, через несколько лет, предложенный подход станет анекдотом, а на его месте появится новая «революционная» технология.

Оригинал статьи: https://arxiv.org/pdf/2603.12096.pdf

Связаться с автором: https://www.linkedin.com/in/avetisyan/

Смотрите также:

2026-03-13 12:40