Гонка разумов: Искусственный интеллект на трассе Формулы-1

Автор: Денис Аветисян

Новое исследование демонстрирует, как обучение с подкреплением позволяет создавать стратегии для многоагентных систем, способные эффективно соревноваться в динамичной среде гонок Формулы-1.

"Покупай на слухах, продавай на новостях". А потом сиди с акциями никому не известной биотех-компании. Здесь мы про скучный, но рабочий фундаментал.

Бесплатный Телеграм канал

Схема самообучения предполагает, что в начале тренировки агентом-противником выступает лишь собственная текущая политика, однако с каждой последующей итерацией в пул оппонентов добавляется агент, демонстрирующий наивысший рейтинг Эло, обеспечивая тем самым прогрессивное усложнение тренировочного процесса.

Разработана платформа для обучения стратегий гонок Формулы-1 с использованием самообучения и алгоритмов оптимизации пит-стопов и управления энергией.

В современной Формуле 1 адаптация стратегии гонки к меняющимся условиям и действиям соперников является критически важной задачей. В работе ‘Learning-based Multi-agent Race Strategies in Formula 1’ предложен подход, основанный на обучении с подкреплением, для оптимизации многоагентных стратегий, учитывающий энергетический баланс, износ шин, аэродинамическое взаимодействие и решения о пит-стопах. Ключевым результатом является создание самообучающихся агентов, способных адаптировать тайминг пит-стопов и выбор шин в ответ на поведение оппонентов, демонстрируя стабильно высокую производительность. Возможно ли дальнейшее совершенствование систем поддержки принятия решений для гоночных стратегов на основе подобных алгоритмов обучения в реальном времени?

Преходящая сложность гоночной стратегии

Традиционно, разработка стратегии в Формуле 1 опирается на опыт и интуицию инженеров, дополненные ограниченными возможностями компьютерного моделирования. Однако, динамичный характер гоночных условий, включающий изменения погоды, износ шин и поведение соперников, часто делает эти стратегии неэффективными в реальном времени. Сложность заключается в том, что даже самые продвинутые симуляции не способны предвидеть все возможные сценарии и адекватно реагировать на непредсказуемые события на трассе. В результате, решения, принимаемые в процессе гонки, зачастую основаны на мгновенной оценке ситуации, а не на глубоком анализе данных, что снижает потенциал для достижения оптимального результата и подчеркивает необходимость более адаптивных и интеллектуальных систем стратегического планирования.

Оптимизация времени круга в Формуле 1 представляет собой сложную задачу, обусловленную переплетением множества факторов. Эффективное управление энергией силовой установки, степень износа шин и тактика соперников формируют многомерное пространство параметров, в котором необходимо принимать решения. Изменение любого из этих факторов оказывает влияние на общую производительность, создавая нелинейные зависимости и требуя постоянной адаптации стратегии. Например, агрессивное использование энергии может обеспечить кратковременное преимущество, но приведёт к более быстрому износу шин и необходимости более позднего пит-стопа. В свою очередь, консервативная тактика может привести к потере позиций из-за более высокой скорости соперников. Поэтому поиск оптимальной стратегии требует учета всех этих взаимосвязей и прогнозирования поведения конкурентов, что делает задачу чрезвычайно сложной и требующей передовых вычислительных методов.

Существующие методы разработки стратегии в Формуле-1 часто оказываются неспособными адекватно учитывать тонкости аэродинамического взаимодействия между болидами. Это создает непредсказуемые изменения в производительности, поскольку обтекаемый воздух от впереди идущей машины значительно влияет на прижимную силу и сопротивление позади нее. Проблема заключается в сложности точного моделирования этих эффектов в реальном времени, учитывая переменчивость турбулентности и взаимного расположения автомобилей на трассе. Невозможность предсказать, насколько сильно изменится скорость и управляемость из-за «грязного воздуха», заставляет команды полагаться на приблизительные оценки и интуицию, что может привести к неоптимальным решениям о пит-стопах и тактике обгона. В результате, даже самые совершенные симуляции не всегда способны достоверно отразить реальную картину происходящего на гоночной дистанции, подчеркивая необходимость разработки более точных моделей учета аэродинамических помех.

Модель гоночного автомобиля принимает на вход действия агента [latex]\mathbf{a}[/latex], время отставания от соперника [latex]t_{gap}[/latex] и дополнительное время круга, вызванное аэродинамическим взаимодействием [latex]\Delta T_{int}[/latex], выдавая наблюдения за собственным автомобилем [latex]\mathbf{o}[/latex] и информацию о сопернике [latex]\mathbf{\\tilde{o}}[/latex], подробное математическое описание которой приведено в [10]. — Модель гоночного автомобиля принимает на вход действия агента $\mathbf{a}$ , время отставания от соперника $t_{gap}$ и дополнительное время круга, вызванное аэродинамическим взаимодействием $\Delta T_{int}$ , выдавая наблюдения за собственным автомобилем $\mathbf{o}$ и информацию о сопернике $\mathbf{\\tilde{o}}$ , подробное математическое описание которой приведено в [10].

Обучение с подкреплением для оптимизации гоночной стратегии

Для оптимизации стратегии гонок используется обучение с подкреплением (RL), позволяющее агентам принимать тактические решения в процессе гонки с целью максимизации производительности. В рамках данного подхода, агент обучается посредством взаимодействия с симулированной средой гонки, получая вознаграждение за действия, приближающие его к победе, и штрафы за неэффективные решения. Обучение происходит итеративно, агент постепенно совершенствует свою политику управления, адаптируясь к различным условиям трассы и действиям соперников. Использование RL позволяет агенту осваивать сложные стратегии, которые трудно запрограммировать вручную, что приводит к повышению эффективности и конкурентоспособности в гоночных симуляциях.

В основе разработанной системы лежит алгоритм Soft Actor-Critic (SAC), обеспечивающий эффективное обучение стратегии управления. SAC относится к классу off-policy алгоритмов обучения с подкреплением, что позволяет использовать накопленный опыт для оптимизации политики даже при изменении стратегии сбора данных. Ключевым преимуществом SAC является использование энтропии в функции полезности, что способствует исследованию пространства действий и предотвращает преждевременную сходимость к локальным оптимумам. Это особенно важно в динамичных гоночных сценариях, где оптимальная стратегия может меняться в зависимости от действий соперников и особенностей трассы. Алгоритм позволяет агенту быстро адаптироваться к различным условиям гонки, обеспечивая стабильно высокие результаты в широком спектре ситуаций.

Внедренный модуль взаимодействия агентов (Agent Interaction Module) позволяет агенту, использующему обучение с подкреплением, моделировать и реагировать на действия соперников. Данный модуль реализует предсказание стратегий других агентов на основе наблюдаемой истории их действий, что позволяет основному агенту адаптировать свою собственную стратегию в реальном времени. Моделирование происходит путем анализа текущей позиции соперников, их скорости, траекторий движения и других релевантных параметров, формируя вероятностные прогнозы относительно их будущих действий. Эта информация используется для оптимизации собственных решений, например, выбора оптимальной траектории обгона или стратегии защиты позиции, повышая общую эффективность агента в соревновательной среде.

Для создания устойчивого и конкурентоспособного агента используется метод самообучения (Self-Play Training). В процессе самообучения агент многократно соревнуется сам с собой, генерируя разнообразные игровые сценарии и накапливая опыт. Каждая виртуальная гонка служит итерацией обучения, в ходе которой агент корректирует свою стратегию на основе полученных результатов. Постоянное взаимодействие с собственными, постоянно улучшающимися версиями, позволяет агенту адаптироваться к широкому спектру тактик соперников и выработать оптимальную стратегию поведения, не требующую внешних данных или ручного вмешательства. В результате, агент демонстрирует высокую устойчивость к непредсказуемым действиям противников и способен эффективно адаптироваться к меняющимся условиям гонки.

Агент использует фиксированную базовую политику [10] и обучаемый модуль взаимодействия для комбинирования собственных наблюдений [latex]\mathbf{o}[/latex] и наблюдений за оппонентом [latex]\mathbf{\\tilde{o}}[/latex] в итоговое действие [latex]\mathbf{a}[/latex], формируемое как сумма номинальной политики [latex]\mathbf{a}\\_{\\mathrm{nom}}[/latex] и корректировки от модуля взаимодействия [latex]\mathbf{\\Delta a}[/latex]. — Агент использует фиксированную базовую политику [10] и обучаемый модуль взаимодействия для комбинирования собственных наблюдений $\mathbf{o}$ и наблюдений за оппонентом $\mathbf{\\tilde{o}}$ в итоговое действие $\mathbf{a}$ , формируемое как сумма номинальной политики $\mathbf{a}\\_{\\mathrm{nom}}$ и корректировки от модуля взаимодействия $\mathbf{\\Delta a}$ .

Моделирование гибридной силовой установки и энергетической динамики

Модель гибридной силовой установки включает детальное представление компонентов, таких как двигатель внутреннего сгорания, электродвигатель, аккумуляторная батарея и система рекуперации энергии. Каждый компонент моделируется с учетом его энергетической эффективности, динамических характеристик и ограничений по мощности. Это позволяет точно рассчитывать потоки энергии между компонентами, прогнозировать расход топлива и степень заряда батареи в каждый момент времени. Детализация модели необходима для оптимизации стратегий развертывания энергии, максимизирующих производительность автомобиля в различных условиях гонки и квалификации, а также для точной оценки влияния различных параметров на общую эффективность силовой установки.

Модель явно учитывает содержание энергии в топливе и аккумуляторе, что позволяет агенту стратегически балансировать распределение мощности между двигателем внутреннего сгорания и электродвигателем. Содержание энергии топлива измеряется в единицах массы (например, килограммах) и преобразуется в доступную энергию с использованием удельной теплоты сгорания топлива. Содержание энергии аккумулятора определяется как произведение напряжения, тока и времени разряда, с учетом эффективности преобразования энергии. Агент использует эти данные для принятия решений о том, когда использовать электродвигатель для дополнительной мощности или рекуперативного торможения, и когда полагаться на двигатель внутреннего сгорания для поддержания скорости и запаса хода. Точное моделирование этих параметров позволяет оптимизировать стратегию использования энергии для достижения максимальной производительности на трассе.

Эффективное управление энергией является ключевым фактором максимизации времени круга и общей производительности в гонке, определяя процесс принятия решений агентом. Модель учитывает динамическое изменение запаса энергии в аккумуляторе и топливном баке, позволяя агенту оптимизировать распределение мощности между двигателем внутреннего сгорания и электродвигателем. Стратегии управления энергией включают в себя рекуперативное торможение, оптимизацию режимов работы двигателя и электродвигателя, а также прогнозирование потребностей в энергии на основе траектории и условий гонки. В результате, агент обучается принимать решения, направленные на поддержание оптимального уровня энергии для обеспечения максимальной скорости и прохождения дистанции.

Детальное моделирование гибридной силовой установки в сочетании с алгоритмами обучения с подкреплением (RL) позволяет агенту разрабатывать оптимальные стратегии управления для различных этапов соревнований. В процессе обучения агент анализирует взаимосвязь между потреблением топлива, зарядом батареи и динамическими характеристиками автомобиля, формируя эффективные алгоритмы переключения между двигателем внутреннего сгорания и электромотором. Это обеспечивает максимизацию производительности как в квалификационных заездах, где требуется кратковременная максимальная мощность, так и в гоночных условиях, где приоритетом является поддержание оптимального темпа на протяжении всей дистанции. Использование RL позволяет агенту адаптироваться к изменяющимся условиям трассы и тактике соперников, выбирая наиболее эффективную стратегию использования энергии для достижения наилучшего результата.

Анализ стратегий гонки показывает, что агент AA (синий) стартует с отставанием в 0.5 единицы от агента BB (красный), и разница во времени гонки определяется распределением топлива и энергии батареи, а также решениями о пит-стопах.

Влияние аэродинамического взаимодействия на гоночную производительность

Учёт аэродинамического взаимодействия, в частности, эффекта следа, является ключевым аспектом, определяющим производительность автомобиля, идущего за другим. Данный эффект возникает из-за турбулентного потока воздуха, создаваемого передним автомобилем, который существенно снижает прижимную силу и увеличивает сопротивление воздуха для следующего транспортного средства. Исследования показали, что влияние следа может приводить к значительной потере скорости и ухудшению управляемости, особенно при попытках обгона. Модель учитывает эти сложные аэродинамические силы, позволяя агенту искусственного интеллекта прогнозировать и компенсировать их воздействие, что, в свою очередь, оптимизирует траекторию движения и повышает эффективность обгонов, а также позволяет поддерживать оптимальную скорость в условиях плотного потока.

Агент обучения с подкреплением был обучен учитывать физическое явление, известное как эффект следа, позволяющее предвидеть и смягчать влияние турбулентности, создаваемой впереди идущим автомобилем. Это достигается за счет анализа воздушного потока и прогнозирования изменений в аэродинамических характеристиках, что позволяет агенту более эффективно планировать обгоны. В результате, модель способна выбирать оптимальные моменты для маневра, минимизируя потерю скорости и увеличивая вероятность успешного обгона, даже в условиях плотного трафика и сильной турбулентности. Подобный подход значительно повышает соревновательную способность агента, позволяя ему не только поддерживать высокую скорость, но и активно использовать преимущества, создаваемые динамикой воздушного потока.

Модель демонстрирует высокую точность в прогнозировании изменений времени круга, основываясь на текущих аэродинамических условиях и взаимном расположении автомобилей на трассе. Учет таких факторов, как турбулентность, создаваемая впереди идущими машинами, позволяет предсказывать влияние этих возмущений на скорость и управляемость. В результате, модель способна оптимизировать гоночный темп, предлагая стратегии, учитывающие не только возможности отдельного автомобиля, но и динамику всей гоночной группы. Это особенно важно для определения оптимальных моментов для обгона и поддержания стабильной скорости в условиях плотного пелотона, что в конечном итоге приводит к значительному улучшению общего результата.

В ходе масштабных симуляций было продемонстрировано устойчивое превосходство разработанного агента, использующего обучение с подкреплением, над политикой, основанной на работе одиночного агента. Разница во времени круга составила приблизительно 12.52 секунды, что свидетельствует о значительном улучшении производительности. Более того, анализ, основанный на рейтинговой системе Elo, подтвердил доминирование агента AA, которому был присвоен показатель в 1000 единиц, что наглядно демонстрирует его превосходство в гоночной стратегии и способности адаптироваться к динамично меняющимся условиям на трассе.

Взаимодействие агента, проходящего обучение, и фиксированного соперника осуществляется через прямое воздействие на автомобиль, при этом аэродинамическое взаимодействие связывает модели двух транспортных средств, а наблюдения разделяются в зависимости от источника - собственного автомобиля или автомобиля-соперника. — Взаимодействие агента, проходящего обучение, и фиксированного соперника осуществляется через прямое воздействие на автомобиль, при этом аэродинамическое взаимодействие связывает модели двух транспортных средств, а наблюдения разделяются в зависимости от источника — собственного автомобиля или автомобиля-соперника.

Перспективы развития: адаптивная стратегия и рейтинговая система

В будущем планируется интеграция метода Монте-Карло для усовершенствования стратегии агента в условиях неопределенности. Этот подход позволит моделировать множество возможных сценариев гонки, учитывая вероятностные факторы, такие как износ шин, погодные условия и действия соперников. Путем многократного симулирования различных вариантов развития событий, агент сможет оценить риски и преимущества каждой стратегии, выбирая наиболее оптимальный план действий. Использование Монте-Карло позволит агенту не просто реагировать на текущую ситуацию, но и предвидеть возможные изменения, адаптируя свою стратегию для достижения наилучшего результата даже в самых непредсказуемых обстоятельствах. Это значительно повысит надежность и эффективность принимаемых решений, особенно в ситуациях, когда точный прогноз невозможен.

В рамках дальнейших исследований планируется интеграция выбора составов шин в систему обучения с подкреплением, что позволит оптимизировать стратегию пит-стопов в режиме реального времени. Вместо использования заранее заданных стратегий, агент будет способен динамически адаптировать выбор шин, учитывая изменяющиеся условия гонки — такие как погода, износ трассы и действия соперников. Такой подход позволит учитывать не только абсолютную скорость каждого состава, но и его долговечность, а также влияние на общую стратегию гонки. Внедрение динамического выбора шин открывает возможности для разработки более гибких и эффективных стратегий, которые позволят максимально использовать потенциал болида и добиться лучших результатов на трассе.

Для оценки и сопоставления эффективности различных агентов, обученных с помощью обучения с подкреплением, планируется внедрение системы рейтинга Эло. Эта система, изначально разработанная для шахмат, позволит количественно оценить навыки каждого агента и выявить наиболее перспективные стратегии. Постоянное соревнование между агентами в рамках системы Эло обеспечит динамическую оценку их прогресса и позволит непрерывно совершенствовать алгоритмы обучения. Такой подход не только предоставляет объективные метрики производительности, но и способствует развитию более адаптивных и эффективных стратегий, приближая возможности искусственного интеллекта к уровню профессиональных гонщиков Формулы-1.

Предлагаемый подход несет в себе потенциал для кардинального изменения стратегий в Формуле 1, открывая перед командами возможности, ранее недостижимые. Благодаря использованию обучения с подкреплением и адаптивных алгоритмов, становится возможным прогнозирование и оптимизация гоночных сценариев с беспрецедентной точностью. Это позволяет не только более эффективно использовать доступные ресурсы, такие как выбор шин и моменты пит-стопов, но и разрабатывать тактические решения, учитывающие мельчайшие нюансы трассы, погодные условия и поведение соперников. В конечном итоге, реализация данной методики может привести к значительному повышению конкурентоспособности команд и, как следствие, к новым рекордам и захватывающим гонкам.

Анализ стратегий пит-стопов и выбора составов шин (желтый - средний, красный - мягкий) для дуэлей между агентами показал, что агент, стартующий позади, может компенсировать отставание за счет оптимальной стратегии, при этом разница во времени круга относительно базовой конфигурации (agentAA против agentCC) варьируется в зависимости от выбранной стратегии. — Анализ стратегий пит-стопов и выбора составов шин (желтый — средний, красный — мягкий) для дуэлей между агентами показал, что агент, стартующий позади, может компенсировать отставание за счет оптимальной стратегии, при этом разница во времени круга относительно базовой конфигурации (agentAA против agentCC) варьируется в зависимости от выбранной стратегии.

Представленное исследование демонстрирует, что системы, подобные стратегиям гоночных команд Формулы 1, неизбежно эволюционируют и требуют постоянной адаптации. Подобно тому, как время является неотъемлемой частью функционирования любой системы, так и самообучение через взаимодействие агентов становится ключевым фактором успеха. Тим Бернерс-Ли однажды сказал: «Сеть должна быть расширяема, чтобы каждый мог вносить свой вклад». Это утверждение находит отражение в данной работе, где возможность адаптации стратегий в реальном времени через соревновательное самообучение позволяет системам не просто стареть, но и достойно эволюционировать, оптимизируя энергопотребление и время пит-стопов, что критически важно для достижения оптимального результата в гонке.

Куда Ведет Гонка?

Представленная работа — лишь очередной коммит в летописи алгоритмической стратегии, а не финишный флаг. Эффективность, продемонстрированная в симуляции, неизбежно сталкивается с несовершенством реального мира. Вместо триумфального решения, возникает вопрос о масштабируемости: как адаптировать систему к непредсказуемости поломок, меняющимся погодным условиям и, главное, к иррациональности человеческого фактора? Задержка в решении этих проблем — неизбежный налог на амбиции.

Будущие исследования, вероятно, сосредоточатся на интеграции с системами предиктивной аналитики, способными оценивать вероятность различных сценариев. Более того, представляется перспективным отказ от жестких стратегий в пользу динамических, способных перестраиваться в ответ на мельчайшие изменения обстановки. Однако, истинный прорыв потребует преодоления дихотомии между оптимизацией и креативностью — умения алгоритма не просто выбирать лучший вариант, но и генерировать новые, неожиданные решения.

Каждая версия алгоритма — глава в этой бесконечной гонке. И пока существуют нерешенные проблемы, пока время продолжает свой неумолимый ход, система стареет. Вопрос лишь в том, сделает ли она это достойно, сохранив способность адаптироваться и развиваться.

Оригинал статьи: https://arxiv.org/pdf/2602.23056.pdf

Связаться с автором: https://www.linkedin.com/in/avetisyan/

Смотрите также:

2026-02-27 22:05