Забудьте про перцепцию, планирование и контроль. Теперь все делает одна модель
Последние десять лет инженеры строили автопилоты как конструктор. Отдельный модуль для распознавания пешеходов. Еще один — для чтения дорожных знаков. Третий — для построения маршрута. Четвертый — для принятия решений. Пятый — для управления рулем и педалями. Каждый модуль — это отдельная нейросеть или алгоритм, которые общаются через строгие интерфейсы. Сложно? Невероятно. Дорого? Абсолютно. Работает? С переменным успехом.
А теперь представьте, что все это заменяет одна большая языковая модель. Та самая, что пишет стихи и генерирует код. Ее называют Car-GPT. Она смотрит на данные с камер, лидаров и радаров, «понимает» сцену как текст, и выдает команды: «повернуть руль на 3.2 градуса», «увеличить тормозное давление», «включить левый поворотник». Никаких модулей. Никаких интерфейсов. Один гигантский мозг, который делает все.
Это не научная фантастика. Tesla, Waymo и десятки стартапов уже тестируют такие системы. Некоторые называют это концом классической робототехники. Другие — началом новой эры, где машины наконец-то научатся думать как люди. Третьи просто паникуют.
Почему модульный подход стал тупиком? Он слишком хрупкий
Классический автопилот похож на бюрократическую систему. Данные от камеры идут в отдел перцепции. Там их обрабатывают и выдают отчет: «объект №1 — автомобиль, координаты X,Y, скорость 50 км/ч». Этот отчет передают в отдел планирования. Там строят траекторию. Потом отдел контроля превращает траекторию в команды для мотора и тормозов.
Проблема в том, что если отдел перцепции ошибся, вся цепочка летит в тартарары. Не распознал сбитый дорожный конус? Планировщик его проигнорирует. Контроллер поедет прямо на него. Каждый модуль оптимизирован для своей задачи, но не понимает общей картины. Как специалист, который знает все про болты, но не представляет, как выглядит весь автомобиль.
Модульная система требует тонкой настройки тысяч параметров. Добавить новый тип датчика? Переписать половину интерфейсов. Столкнуться с нестандартной ситуацией (скажем, полицейский, размахивающий жезлом)? Система зависает, потому что в ее базе данных нет категории «размахивающий жезлом». Она видит человека, но не понимает его намерений.
Car-GPT: один трансформер на все случаи жизни. Как это работает?
Вместо десятков модулей — одна архитектура типа Transformer. Но на вход ей подают не слова, а «токены», представляющие кусочки визуальной сцены, показания датчиков и историю движения. Модель обучают на миллионах часов видео с реального вождения, симуляциях и, что важно, на текстовых описаниях сцен.
Модель учится связывать визуальные паттерны с языковыми понятиями. Она не просто видит «красный круглый объект». Она понимает, что это «светофор, показывающий красный, что означает остановиться». Она видит «человека, стоящего у края дороги и смотрящего на телефон» и прогнозирует: «вероятно, вот-вот шагнет на проезжую часть, не глядя по сторонам».
| Модульный подход (старый) | Car-GPT подход (новый) |
|---|---|
| 10+ отдельных нейросетей и алгоритмов | 1 энд-ту-энд модель |
| Жесткие интерфейсы между модулями | Единое сквозное представление данных |
| Ошибка в одном модуле ломает всю цепочку | Модель может компенсировать локальные ошибки за счет общего контекста |
| Сложно добавлять новые сенсоры или сценарии | Дообучить на новых данных — и модель сама адаптируется |
| Нулевое «понимание» намерений других участников | Может строить предположения, основанные на здравом смысле (как люди) |
На выходе модель генерирует не текст, а последовательность низкоуровневых команд управления. Но внутренне она оперирует высокоуровневыми понятиями. Это ключевое отличие. Она не вычисляет траекторию по формулам. Она «думает»: «нужно перестроиться в правый ряд, потому что в левом впереди авария, а мне через 500 метров поворот направо».
Темная сторона силы: почему Car-GPT всех пугает
Звучит идеально. Но есть нюансы. Огромные. Первый — «галлюцинации». Если языковая модель может выдумать факт, то Car-GPT может выдумать пешехода или знак. В городском потоке это смертельно. Второй — непредсказуемость. Модульную систему можно по косточкам разобрать после инцидента. Почему не сработал детектор? Потому что на камере была бликующая лужа. Все ясно.
С Car-GPT черный ящик становится черной дырой. Модель приняла решение «резко затормозить». Почему? Потому что в ее внутренних представлениях сложился паттерн, отдаленно напоминающий выбегающего ребенка. Или потому что она «вспомнила» похожий кадр из обучающего видео. Или просто ошиблась. Объяснить это почти невозможно. А без объяснений регуляторы никогда не дадут добро на массовое использование.
Проблема вычислительной мощности тоже никуда не делась. Запускать модель на триллионы параметров в реальном времени на борту автомобиля — пока фантастика. Но тренды квантования и специализированные чипы, как те, что разрабатывают Huawei и Cambricon, могут решить эту проблему быстрее, чем кажется.
Третий кошмар — безопасность. Модульную систему можно защищать послойно. Атаковать один модуль сложно. Атаковать одну гигантскую модель, которая все делает, — потенциально проще. Достаточно найти уязвимость в ее «мышлении», и злоумышленник получит полный контроль над автомобилем. Не нужно взламывать десять систем — достаточно обмануть одну.
Что будет дальше? Гибриды, а не чистые революции
Скорее всего, победит не чистый Car-GPT, а гибрид. Небольшая, но умная языковая модель будет работать как центральный «мозг», принимающий высокоуровневые решения. А вокруг нее останутся оптимизированные, надежные модули для критически важных задач вроде экстренного торможения. Как в эксперименте с Genesis-152M-Instruct — малая модель, но с четкой архитектурой.
LLM возьмет на себя сложные, нестандартные ситуации, требующие здравого смысла. Модули — рутинную, предсказуемую работу. Это снизит риски и сохранит преимущества обоих подходов. Такой симбиоз уже тестируют ведущие компании.
Прогноз? К 2028-2030 году новые беспилотники будут строиться именно по этой схеме. Модульная архитектура не умрет — она отступит на второй план, став «спинным мозгом», отвечающим за рефлексы. А Car-GPT станет «корой головного мозга», отвечающей за мышление и принятие решений в сложной среде.
Это изменит все. Не только автомобили. Роботы на заводах, дроны, даже умные дома — всюду, где нужно воспринимать сложный мир и действовать в нем, появятся свои маленькие GPT. Эпоха узких ИИ заканчивается. Начинается эпоха универсальных, но пока еще очень странных и не всегда предсказуемых машинных «разумов». Пристегнитесь. Будет неспокойно.