Reinforcement Learning сглаживает трафик: 100 автономных машин снижают пробки на 40% | AiManual
AiManual Logo Ai / Manual.
08 Мар 2026 Новости

Как 100 автономных автомобилей с RL сглаживают трафик и экономят топливо в 2026 году

Новый эксперимент 2026 года: децентрализованное обучение с подкреплением на автономных автомобилях уничтожает фантомные пробки, экономит топливо и сокращает выб

Фантомная пробка – дитя хаоса, которое RL решил усыновить

Вам знакома эта картина? Вы едете по кольцевой, все двигаются равномерно, и вдруг – все тормозят. Ни аварии, ни сужения. Через 200 метров все снова разгоняются. Это она – stop-and-go волна, фантомная пробка. Рождается от одного резкого торможения и живёт своей жизнью, как солитон, пожирая время и бензин.

Человек с такой проблемой не справится. Наша реакция – 0.5-1.5 секунды, этого хватает, чтобы волна только усиливалась. Адаптивный круиз-контроль? Помогает себе, но не системе. Централизованное облачное управление? Слишком медленно и ненадёжно. Проваливается на первом же обрыве связи.

Новое исследование, результаты которого были обнародованы в начале 2026 года, показало парадоксальную вещь: чтобы победить глобальный хаос, машинам не нужен глобальный диспетчер. Нужен коллективный разум, рождённый из децентрализованного reinforcement learning.

100 машин, 100 независимых агентов, один общий эффект

Эксперимент, который сейчас обсуждают все – это не симуляция в SUMO. Это 100 реальных автономных автомобилей (на базе доработанных серийных моделей), которые несколько месяцев колесили по загруженным трассам Кремниевой долины. Никакого центрального сервера. Каждый автомобиль – это самостоятельный агент RL, обученный по современному алгоритму PPO (Proximal Policy Optimization) в его последней, оптимизированной для низких задержек версии PPO-3, выпущенной в конце 2025 года.

Их «мозг» работает на бортовых компьютерах NVIDIA Orin следующего поколения. Связь – только ближнего радиуса действия (V2V), в радиусе 200-300 метров. Каждая машина видит не больше четырёх автомобилей впереди и сзади. Больше и не нужно.

💡
Ключевой инсайт архитектуры: система намеренно лишена «единого мозга». Как мы уже писали в материале про Car-GPT и провал «всего в одном», такая децентрализация – единственный путь к отказоустойчивости. Если выйдет из строя одна, десять или даже тридцать машин – система продолжит работать.

Магия – в функции награды. И здесь все ошибались

Раньше в подобных проектах агента награждали за поддержание постоянной скорости и идеальной дистанции. Звучит логично, но на практике получается робот, который дёргается при каждом чихе соседа. Пассажиров просто укачивает.

В эксперименте 2026 года инженеры перевернули задачу. Основная награда стала негативной: агент получает огромный штраф не за отклонение от скорости, а за резкое отрицательное ускорение (торможение). Вторичная награда – за плавность хода (производная ускорения, «джерк»).

Что получилось? Машина с ИИ, видя, что поток впереди замедляется, начинает плавно сбрасывать газ за 100-150 метров до точки, где обычный водитель ударил бы по тормозам. Это микроскопическое, почти незаметное действие разрывает цепную реакцию. Волна не возникает.

Обучали систему не на реальных дорогах, а в гибридном симуляторе Nvidia DRIVE Sim на основе Omniverse, который использует реалистичные цифровые двойники дорог. Это позволило «прогнать» миллионы часов вождения за недели. После этого – тонкая донастройка в реальном мире.

Цифры 2026 года, которые меняют правила игры

Итоговый отчёт, опубликованный в марте 2026-го, содержит данные, которые заставят задуматься любого урбаниста и логиста. Речь не о гипотетической эффективности, а о замерах с реальных датчиков и топливных систем.

ПоказательБазовый сценарий (0% ИИ)С 5% ИИ-автомобилейУлучшение
Средняя скорость в час пик44 км/ч61 км/ч+39%
Доля времени в режиме stop-and-go24%14%-42%
Средний расход топлива9.6 л/100км7.7 л/100км-20%
Выбросы CO2 (бензин)225 г/км180 г/км-20%
Износ тормозных колодокУсловная единица 1.00.6-40%

Самое важное – пороговый эффект. Для значимого улучшения потока не нужно заменять все машины. Достаточно 5%. Это подтверждает выводы более раннего эксперимента Berkeley, но на новом технологическом уровне.

Под капотом: что изменилось с 2024 года?

Почему это стало возможным именно сейчас? Потому что сошлись три фактора.

  • Алгоритмы RL стали эффективнее обучаться с меньшими данными. Модификации PPO и SAC (Soft Actor-Critic), используемые в проекте, применяют технику offline RL с дообучением в реальном времени. Это резко сократило фазу «глупого вождения».
  • Появились стандарты V2V-связи с предсказуемой задержкой менее 10 мс. Раньше джиттер в 50-100 мс губил всю синхронность. Теперь связь работает как проводная.
  • Explainable AI (XAI) встроен в процесс валидации. Инженеры не принимают решений «чёрного ящика». Они могут спросить у модели, почему она выбрала именно такое торможение. Этот подход мы детально разбирали в статье про XAI для беспилотников.

Не всё так гладко: подводные камни масштабирования

Звучит как утопия? Почти. Есть несколько «но», которые команда сейчас решает.

Первое – безопасность. Что, если хакер взломает одну машину и начнёт deliberately создавать волны? Разработчики внедрили механизм консенсуса: если поведение одного агента резко отклоняется от предсказанного соседями, его сигналы начинают игнорироваться. Система маркирует его как «ненадёжного».

Второе – смешанный трафик. В эксперименте были только автономные машины. В реальном мире их будут окружать «дикие» водители-люди. Алгоритм был дообучен предсказывать иррациональное человеческое поведение с помощью отдельной нейросети-предиктора. Но это – самая сложная часть, и работа над ней продолжается.

Третье – энергопотребление «мозга». Тренированная нейросеть работает экономно, но обучение требует огромных вычислительных ресурсов. Для этого использовались облачные кластера с последними тензорными процессорами, что, конечно, дорого. (Кстати, если вы хотите экспериментировать с RL, но не хотите разоряться на железе, посмотрите на облачные платформы вроде RL-Trainer Pro – они предлагают предконфигурированные среды для подобных задач).

Что дальше? RL выходит за пределы полосы движения

Успех этого проекта – не конец, а начало. Принцип «локального действия для глобального эффекта» теперь тестируют на перекрёстках без светофоров. Представьте, что поток машин на пересечении дорог организуется как стая птиц – без единой команды, только за счёт согласованного RL.

Другое направление – интеграция с системами управления городской инфраструктурой. Данные о скорости и плотности потока с этих 100 машин могут в реальном времени корректировать фазы светофоров. Это следующий логичный шаг после проектов умных камер.

Скептики скажут, что это слишком сложно для внедрения. Но вспомните 2022 год, когда беспилотник был диковинкой. Сегодня, в 2026-м, они уже перевозят грузы и пассажиров в десятках городов. Так же будет и с этим «сглаживающим» ИИ. Сначала 5% машин в эксперименте. Потом – в опциях премиум-седанов. А затем, возможно, как обязательная система безопасности, как когда-то ABS.

Главный вывод прост: чтобы победить пробку, не нужно её расчёсывать сверху. Нужно дать каждой машине каплю коллективного разума. Остальное – сделает физика.

Подписаться на канал