Тактика победителей: Искусственный интеллект на гоночной трассе

Автор: Денис Аветисян


Новое исследование демонстрирует, как машинное обучение может оптимизировать стратегию гонки в Формуле-1, приближая команды к победе.

"Покупай на слухах, продавай на новостях". А потом сиди с акциями никому не известной биотех-компании. Здесь мы про скучный, но рабочий фундаментал.

Бесплатный Телеграм канал
Смоделированное увеличение времени круга напрямую связано со степенью износа шин при сохранении постоянной массы автомобиля, причем полученные кривые являются результатом объединения моделей, представленных ранее.
Смоделированное увеличение времени круга напрямую связано со степенью износа шин при сохранении постоянной массы автомобиля, причем полученные кривые являются результатом объединения моделей, представленных ранее.

Предложен комбинированный подход с использованием нелинейного целочисленного программирования и обучения с подкреплением для оптимизации энергопотребления, пит-стопов и износа шин.

Оптимизация стратегии гонки в Формуле-1 представляет собой сложную задачу, требующую учета множества взаимосвязанных факторов. В данной работе, ‘Towards Learning-Based Formula 1 Race Strategies’, предложены два взаимодополняющих подхода, объединяющие методы нелинейного целочисленного программирования и обучения с подкреплением для совместной оптимизации распределения энергии, износа шин и времени пит-стопов. Полученные результаты демонстрируют, что применение обучения с подкреплением позволяет достичь почти оптимальной стратегии, существенно снижая время вычислений по сравнению с традиционными методами. Возможно ли дальнейшее совершенствование алгоритмов принятия решений в Формуле-1 за счет интеграции более сложных моделей обучения и учета динамически меняющихся условий на трассе?


Элегантность Стратегии: Постановка Проблемы

Успех в гонках «Формулы-1» напрямую зависит от разработки надёжной и гибкой стратегии, которая представляет собой сложный баланс между скоростью, износом шин и потреблением энергии. Эффективная стратегия не просто максимизирует скорость на каждом круге, но и учитывает долгосрочное состояние шин, чтобы избежать резкого падения темпа ближе к концу гонки. Более того, современные гоночные болиды оснащены гибридными силовыми установками, что требует оптимизации использования энергии для достижения максимальной производительности, не превышая установленные лимиты. Поэтому, оптимальная стратегия представляет собой многофакторную задачу, требующую постоянного анализа данных и быстрой адаптации к меняющимся условиям на трассе, включая погоду, состояние покрытия и действия соперников.

Традиционные методы разработки стратегии в Формуле-1 сталкиваются с серьезными трудностями из-за непредсказуемости и изменчивости гоночной среды. Динамика гонки, включающая в себя колебания температуры трассы, износ шин, вероятностные изменения погодных условий и действия соперников, создает сложную систему, где точные прогнозы практически невозможны. Эти факторы приводят к тому, что заранее разработанные стратегии часто оказываются неэффективными, поскольку не учитывают все возможные варианты развития событий. В результате, оптимизация гоночной стратегии требует не просто анализа данных, а разработки адаптивных алгоритмов, способных оперативно реагировать на изменяющиеся условия и принимать решения в режиме реального времени, чтобы обеспечить максимальную производительность автомобиля и добиться оптимального результата.

Для достижения максимальной эффективности в гонках Формулы-1, стратегия должна быть не просто реактивной, но и проактивной, способной предвидеть изменения условий на трассе. Это включает в себя анализ множества факторов, таких как температура воздуха и трассы, износ шин, вероятность появления дождя и поведение соперников. Эффективная стратегия подразумевает не только выбор оптимального момента для пит-стопов, но и адаптацию к меняющейся динамике гонки, позволяя гонщику сохранять высокие темпы круга и минимизировать общее время прохождения дистанции. Способность предвидеть и реагировать на неожиданные ситуации, такие как обломки на трассе или изменение погодных условий, является ключевым фактором, определяющим успех гонщика и команды.

При возникновении возмущения на 22 круге (обозначено пунктирной линией), стратегии causalMINLP, RLagent и эвристическая стратегия демонстрируют различные характеристики износа шин, действий на пит-стопе и распределения энергии (топлива и батареи).
При возникновении возмущения на 22 круге (обозначено пунктирной линией), стратегии causalMINLP, RLagent и эвристическая стратегия демонстрируют различные характеристики износа шин, действий на пит-стопе и распределения энергии (топлива и батареи).

Интеллектуальный Агент: Решение для Динамической Оптимизации

Предлагается использование обучения с подкреплением (ReinforcementLearning) для создания интеллектуального агента, способного выработать оптимальную гоночную стратегию (RaceStrategy) посредством проб и ошибок в симулированной гоночной среде. Агент обучается, взаимодействуя с виртуальной трассой и адаптируя свои действия на основе получаемого опыта. Этот подход позволяет агенту самостоятельно находить наиболее эффективные тактики управления ресурсами и принятия решений, без необходимости явного программирования конкретных стратегий. Процесс обучения основан на максимизации кумулятивной награды, определяемой качеством гоночных результатов.

Агент функционирует в рамках процесса принятия решений Маркова (Markov Decision Process), непрерывно оценивая текущее состояние гоночного автомобиля, определяемое переменными, входящими в пространство состояний (StateSpace): уровнем топлива, зарядом батареи и износом шин. На основе этой оценки агент выбирает действия из пространства действий (ActionSpace), включающего в себя распределение энергии между системами автомобиля и принятие решений о посещении пит-стопа. Каждое действие изменяет состояние автомобиля, формируя новую ситуацию для последующей оценки и выбора действия, что и составляет основу процесса обучения с подкреплением.

Функция вознаграждения (RewardFunction) является ключевым компонентом обучения агента, определяя его целевую функцию. Она количественно оценивает каждое действие агента, предоставляя положительное вознаграждение за сокращение времени круга (LapTime) и отрицательное — за неоптимальные решения, такие как излишние или запоздалые пит-стопы, неэффективное распределение энергии или износ шин. Величина вознаграждения напрямую влияет на процесс обучения: более быстрое время круга приводит к большему вознаграждению, стимулируя агента к поиску стратегий, минимизирующих LapTime. Штрафы за неоптимальные действия, напротив, направляют агента к избежанию неэффективных решений и улучшению общей стратегии гонки. Постоянная корректировка стратегии на основе полученных вознаграждений и штрафов обеспечивает непрерывное улучшение производительности агента.

Агент обучения с подкреплением и решатель MINLP управляют распределением энергии топлива и батареи, а также стратегией пит-стопов.
Агент обучения с подкреплением и решатель MINLP управляют распределением энергии топлива и батареи, а также стратегией пит-стопов.

Моделирование Гонки как Стохастического Процесса

Процесс принятия решений агентом в гонке моделируется как стохастический процесс Маркова (Markov Decision Process, MDP), где ключевым элементом является TransitionProbability — вероятность перехода из одного состояния в другое. Эта вероятность учитывает присущую гоночным условиям неопределенность, включающую такие факторы, как случайные изменения сцепления с трассой, поведение соперников и вероятность технических сбоев. Использование TransitionProbability позволяет агенту оценивать вероятностные последствия каждого действия, а не полагаться на детерминированные прогнозы, что критически важно для разработки эффективной стратегии в условиях неполной информации и высокой конкуренции. Вероятность перехода рассчитывается для каждого возможного действия в каждом состоянии, формируя матрицу вероятностей, определяющую динамику поведения агента в гонке.

Вероятности перехода в моделировании гонки напрямую зависят от таких факторов, как износ шин (TireWear) и доступное распределение энергии. Общий запас энергии формируется из BatteryEnergy и FuelEnergy, и его величина ограничивает возможности агента по совершению определенных действий, например, по ускорению или обгону. Увеличение износа шин снижает сцепление с трассой, что негативно влияет на вероятность успешного прохождения поворотов и поддержания высокой скорости. Соответственно, агент учитывает текущие значения этих параметров при принятии решений, стремясь максимизировать вероятность достижения наилучшего результата с учетом имеющихся ограничений.

Точное моделирование взаимосвязей между параметрами гонки, такими как износ шин и доступные энергетические ресурсы (запас энергии батареи и топлива), позволяет агенту прогнозировать вероятные исходы принимаемых решений. Это прогнозирование является основой для обучения с подкреплением, где агент, анализируя последствия своих действий в смоделированной среде, оптимизирует свою стратегию для достижения максимального результата в долгосрочной перспективе. Обучение направлено на выявление оптимального распределения энергии и выбора тактики, учитывающих динамически меняющиеся условия гонки и вероятности различных сценариев развития событий.

Сравнение результатов оптимизации MINLP и обучения с подкреплением показывает, что оба подхода позволяют достичь снижения потребления топлива, заряда батареи и времени прохождения дистанции.
Сравнение результатов оптимизации MINLP и обучения с подкреплением показывает, что оба подхода позволяют достичь снижения потребления топлива, заряда батареи и времени прохождения дистанции.

Баланс Краткосрочных Преимуществ и Долгосрочной Стратегии

В рамках разработанной системы вознаграждения ключевую роль играет параметр DiscountFactor. Этот множитель определяет, насколько сильно агент ценит немедленное вознаграждение по сравнению с потенциальными выгодами в будущем. Более высокий DiscountFactor склоняет агента к выбору действий, приносящих немедленную прибыль, даже если это ограничивает возможности для долгосрочного успеха. Напротив, низкий DiscountFactor стимулирует планирование и выбор стратегий, требующих первоначальных затрат или упущенной выгоды, но обещающих значительные результаты в перспективе. Таким образом, регулируя данный параметр, можно целенаправленно формировать стратегию поведения агента, добиваясь оптимального баланса между краткосрочной эффективностью и долгосрочными целями.

Тонкая настройка параметра, определяющего предпочтение немедленной выгоды перед будущими достижениями, позволяет агенту формировать стратегию, ориентированную на долгосрочную эффективность. Вместо того, чтобы всегда выбирать наиболее очевидное и быстрое решение, агент, при соответствующей калибровке, способен предвидеть отдаленные последствия и делать выбор, который, возможно, потребует временных затрат или небольших уступок на текущем этапе, но в итоге приведет к значительно лучшим результатам. Это позволяет ему избегать краткосрочной оптимизации в ущерб глобальной цели, эффективно балансируя между текущими потребностями и будущим успехом, что особенно важно в сложных задачах, требующих стратегического планирования и предвидения.

Разработанный подход продемонстрировал высокую эффективность, позволив агенту достичь времени прохождения дистанции, отличающегося всего на 0.09% от оптимального решения, полученного с помощью сложной математической модели — программы нелинейного целочисленного программирования (MINLP). Такая точность свидетельствует о способности агента эффективно планировать и реализовывать стратегию, сопоставимую с результатами, полученными при использовании передовых методов оптимизации. Полученные данные подтверждают, что алгоритм способен находить решения, близкие к идеальным, что делает его перспективным инструментом для решения сложных задач планирования и управления в различных областях.

Изменение времени круга в зависимости от износа шин показывает, что для шин средней жесткости данные отсутствуют и кривая построена на основе экстраполяции трендов для мягких и жестких шин.
Изменение времени круга в зависимости от износа шин показывает, что для шин средней жесткости данные отсутствуют и кривая построена на основе экстраполяции трендов для мягких и жестких шин.

Открытие Новых Стратегий и Управление Шинами

Разработанная платформа позволяет проводить детальную оценку эффективности различных составов шин — от мягких SoftTires до жестких HardTires — в зависимости от меняющихся условий гонки. Исследование охватывает влияние температуры трассы, износа покрышек и стратегии пит-стопов на общий результат. Возможность моделирования различных сценариев позволяет выявить оптимальные комбинации шин для каждой конкретной гонки, учитывая не только скорость, но и долговечность покрышек. Это обеспечивает значительное преимущество в планировании стратегии и позволяет гонщикам принимать обоснованные решения в режиме реального времени, максимизируя их шансы на победу.

Агент, обученный определению оптимального времени для пит-стопа и выбору подходящей стратегии использования шин, демонстрирует значительное улучшение гоночных показателей. В процессе обучения алгоритм анализирует множество факторов, включая состояние трассы, износ шин и текущую скорость автомобиля, что позволяет ему предсказывать наиболее выгодные моменты для замены шин. Благодаря этому, потери времени на круге существенно сокращаются, а общая производительность автомобиля на трассе достигает максимума. Оптимизация стратегии пит-стопов и выбора шин является ключевым фактором для достижения высоких результатов в гонках, и данный агент эффективно решает эту сложную задачу.

В условиях возмущенных гоночных сценариев, разработанный агент демонстрирует впечатляющую устойчивость и эффективность. Его отклонение от оптимальной стратегии составляет всего 5.08 секунды, что значительно превосходит результаты, полученные с использованием традиционной эвристической стратегии, где отставание составило 31.45 секунды. При этом, время вычислений агента пренебрежимо мало, что позволяет использовать его в режиме реального времени, обеспечивая мгновенную адаптацию к изменяющимся условиям на трассе и принятие оптимальных решений по управлению гонкой.

Изменение времени круга в зависимости от износа шин показывает, что для шин средней жесткости данные отсутствуют и кривая построена на основе экстраполяции трендов для мягких и жестких шин.
Изменение времени круга в зависимости от износа шин показывает, что для шин средней жесткости данные отсутствуют и кривая построена на основе экстраполяции трендов для мягких и жестких шин.

Представленное исследование демонстрирует, что эффективная стратегия в Формуле 1 требует не просто оптимизации отдельных параметров, таких как время пит-стопа или распределение энергии, но и понимания взаимосвязи между ними. Как говорил Конфуций: “Изучай прошлое, чтобы знать будущее”. Эта мудрость находит отражение в подходе, объединяющем методы математического программирования и обучения с подкреплением. Обучение с подкреплением позволяет быстро адаптироваться к изменяющимся условиям гонки, учитывая динамику износа шин и энергопотребления, что критически важно для достижения оптимального результата. Хорошая архитектура незаметна, пока не ломается, и только тогда видна настоящая цена решений.

Что дальше?

Представленная работа, безусловно, демонстрирует потенциал сочетания детерминированных методов оптимизации и обучения с подкреплением для решения сложной задачи разработки стратегии гонок «Формулы-1». Однако, кажущаяся элегантность полученных результатов не должна заслонять фундаментальные вопросы. Проблема, по сути, не в поиске оптимальной точки в многомерном пространстве параметров, а в понимании самой динамики гонки — её нелинейности, хаотичности и, что особенно важно, неполноты информации. Следовательно, дальнейшее развитие потребует не только повышения вычислительной эффективности алгоритмов, но и углубленного анализа влияния внешних факторов, таких как поведение соперников и случайные события на трассе.

Очевидным направлением является расширение модели деградации шин, включение в неё более реалистичных факторов, влияющих на сцепление. Не менее важным представляется исследование возможности использования обучения с подкреплением для адаптации стратегии в реальном времени, учитывая изменяющиеся условия на трассе и действия соперников. Более того, представляется перспективным изучение применения методов байесовской оптимизации для более эффективного исследования пространства стратегий, учитывая неопределенность в оценке параметров модели.

В конечном счете, задача оптимизации стратегии гонок «Формулы-1» — это не просто техническая головоломка, а отражение сложности самой жизни. Истинная элегантность решения заключается не в сложности алгоритма, а в его способности уловить суть происходящего и предложить наиболее разумный путь к цели, принимая во внимание все ограничения и неопределенности.


Оригинал статьи: https://arxiv.org/pdf/2512.21570.pdf

Связаться с автором: https://www.linkedin.com/in/avetisyan/

Смотрите также:

2025-12-29 17:43