Мечта и кошмар в одном флаконе
Представьте: вместо сложной системы из десятков модулей — один гигантский «мозг». Он смотрит камерами, слушает лидарами, думает о физике мира и просто решает, куда ехать. Никаких промежуточных представлений, никаких ручных правил. Чистая нейросеть от сенсоров до руля. Это и есть мечта о Car-GPT.
Звучит как открытие пенициллина для робототехники. Но пахнет катастрофой.
Модульный подход (классический): Восприятие → Планирование → Контроль. Каждый модуль — отдельная, часто объяснимая система. End-to-end подход (Car-GPT мечта): Сырые данные сенсоров → Единая LLM → Команды приводам. Один черный ящик на все.
Почему модули стали стандартом? (Подсказка: не из-за глупости)
Десятилетия инженеры дробили задачу автономного вождения на куски не от скуки. Каждый модуль — это воздушный шлюз для ошибки.
- Модуль восприятия ошибся — не распознал пешехода. Но модуль планирования, получив «объект неизвестного класса», все равно может принять консервативное решение «тормозить».
- End-to-end модель ошиблась — и пешехода не увидела, и решения безопасного не предложила. Потому что в ее внутреннем представлении эти понятия слились в одну неразделимую кашу.
Модули дают проверяемость. Можно изолировать сбой. Можно улучшать части по отдельности. Система становится отказоустойчивой, а не хрупкой, как стекло.
Идея заменить это здание одним монолитом выглядит так же разумно, как заменить каркас небоскреба одним куском пенопласта. Даже если этот пенопласт очень умный.
Галлюцинации на скорости 100 км/ч
Главный кошмар — предсказуемость. Точнее, ее отсутствие. LLM печально известны своими галлюцинациями и игнорированием инструкций. В чате это смешно. На трассе — смертельно.
LLM отлично понимают цель («избегай столкновений»), но архитектурно склонны ее игнорировать, следуя статистическим шаблонам в данных. Подробнее об этом архитектурном изъяне читайте здесь.
Как гарантировать, что модель не решит, что тень от дерева — это идеальное место для парковки? Или не проигнорирует красный свет, потому что в ее обучающих данных чаще писали про зеленый?
Требуется не просто точность в 99.9%. Нужна предсказуемая ошибка. Система должна «ломаться» понятным, безопасным способом. Монолитная LLM на это не способна в принципе. Ее отказ — это всегда сюрприз.
Данные? Какие данные?
Чтобы обучить Car-GPT, нужны не тексты из интернета. Нужны терабайты данных о редких, опасных ситуациях. Аварии. Экстренные торможения. Сбои сенсоров.
Где их взять? Записывать на реальных машинах — этично? Дорого? Опасно? Симулировать — но тогда модель научится ездить в симуляторе, а не в реальном мире. Проблема разрыва между симуляцией и реальностью убивает множество робототехнических проектов.
Большинство пилотных проектов на LLM проваливаются именно из-за неадекватных или недостаточных данных. В случае с автомобилем цена провала — человеческие жизни.
Так где же место LLM в беспилотнике?
Не вместо модулей, а поверх них. Как высокоуровневый планировщик или интерфейс.
| Задача | Классический подход | Потенциал LLM |
|---|---|---|
| Распознавание объектов | Специализированные CV-модели | Слаб. Слишком общая архитектура. |
| Планирование траектории | Алгоритмы поиска пути, MPC | Слаб. Нет точного учета физики. |
| Объяснение действий | Сложно, лог-файлы | Силен. «Объезжаю яму справа, т.к. слева автобус». |
| Работа с неопределенностью | Вероятностные графические модели | Потенциал есть. Рассуждения в условиях недостатка данных. |
LLM может стать «капитаном», который получает четкую тактическую картину от модулей («впереди яма, слева препятствие, скорость 60 км/ч») и принимает стратегическое решение: «Объехать яму, слегка сместившись вправо, и продолжить движение».
Это уже происходит в робототехнике, где LLM координируют действия манипуляторов. Не заменяют контроллеры, а дирижируют ими.
Итог: революция отменяется. Эволюция продолжается.
Идея Car-GPT как единого мозга — это красивый нарратив для инвесторов и хедлайнов. Техническая реальность более скучная и более сложная.
Беспилотный автомобиль — это не чат-бот. Здесь ошибка стоит слишком дорого. Модульная архитектура — это не технический долг, а осознанная стратегия безопасности, выстраданная за годы проб и падений.
LLM не сломает десятилетия инженерной работы. Она их дополнит. Умная надстройка над надежным фундаментом. Попытки сделать наоборот приведут к очередному разочарованию и дорогому хламу, только на этот раз с колесами.
Прогноз? В ближайшие 5 лет мы увидим не Car-GPT, а «Copilot for Autonomous Driving». Модель-помощник, которая объясняет пассажиру маневры, предугадывает намерения других водителей в сложных перекрестках и предлагает альтернативные маршруты. Мозг останется модульным. Но у него появится голос. И, возможно, немного здравого смысла, позаимствованного у языковых моделей.