Робот, который импровизирует
Ваш посудомоечный робот отлично моет тарелки. Пылесосный – безупречно собирает крошки. Попросите их поменяться задачами? Получите хаос из битой керамики и размазанной грязи. Потому что современные роботы – идиоты-саванты. Они знают один трюк и не способны к импровизации. До сегодняшнего дня.
Команда Physical Intelligence только что выкатила модель π0.7. И это не очередное инкрементальное обновление. Это первая в мире архитектура, которая демонстрирует настоящую композиционную генерализацию в физическом мире. Проще говоря, робот научился собирать новые действия из старых, как лего. Не видел задачи? Не беда. Скомбинирую то, что умею, и сделаю.
Что это за зверь такой – композиционная генерализация?
Представьте, что вас научили открывать дверь ключом и наливать воду в стакан. Стандартный ИИ-робот запомнит эти два сценария как отдельные скрипты. Попросите его налить воды, а потом открыть дверь – он справится. Попросите открыть дверь, используя стакан воды? Тупик. Его мозг не умеет разбирать навыки на атомарные компоненты ("взять предмет", "повернуть", "наклонить") и собирать их в новые последовательности.
Именно об этой фундаментальной проблеме мы писали в материале про причины, по которым роботы плохо ходят. Баланс и сенсорика – это лишь верхушка айсберга. Настоящая драма разворачивалась в их неспособности к абстрактному мышлению.
Как π0.7 ломает систему
В основе модели – гибридная архитектура, которую инсайдеры называют "рекурсивным диффузионным планировщиком". Звучит сложно, но принцип прост. Вместо того чтобы учить робота выполнять задачу от А до Я, π0.7 дробит мир на примитивы.
- Примитив силы: толкнуть, потянуть, удержать.
- Примитив пространства: обойти, поместить внутрь, расположить рядом.
- Примитив объекта: идентифицировать хрупкое, твердое, жидкое.
Модель обучали не на миллионах часов реальных действий роботов (это дорого и медленно), а на синтетических данных из физических симуляторов нового поколения и, что любопытно, на видеороликах. Да, вы не ослышались. Часть "понимания мира" π0.7 позаимствовала у моделей, которые учились смотреть YouTube, похожим на подход, описанный в статье про 1X World Model.
Когда вы даете π0.7 новую инструкцию (скажем, "используй губку, чтобы протереть пролитую воду со стола"), она не ищет в памяти готовый скрипт "уборка пролитой жидкости". Вместо этого:
- Декомпозирует цель на примитивы: "найти абсорбирующий объект", "приложить к жидкости", "переместить с поверхности".
- Смотрит, какие последовательности примитивов уже известны из других задач ("взять предмет", "протереть поверхность").
- Собирает новую цепочку действий, проверяя ее на физическую реализуемость в внутренней симуляции.
Важный нюанс: π0.7 – это именно "мозг", policy-модель. Ей нужна физическая оболочка – робот с манипуляторами и сенсорами. Но ее архитектура спроектирована так, чтобы быть аппаратно-агностичной. Теоретически, ее можно загрузить и в Tesla Optimus Gen 3 с его чувствительными руками, и в промышленного Atlas, о новых когнитивных способностях которого мы рассказывали здесь.
На что это похоже в реальности? Тест "Завтрак в незнакомой кухне"
В демонстрационном видео (не постановочном, уверяют разработчики) роботу с моделью π0.7 дают задачу: "Приготовь тост с джемом". Он впервые видит эту конкретную кухню. Хлеб лежит в незнакомом шкафу, нож – в странном держателе, тостер – новой модели.
Старый ИИ бы завис. Новый – действует. Он открывает шкафы, пока не находит объект, похожий на хлеб (примитив поиска + идентификации). Берет его (примитив захвата). Находит устройство с прорезями (тостер) и помещает хлеб внутрь, используя известный примитив "вставить объект А в слот Б". Пока хлеб жарится, он ищет банку, встряхивает ее и, распознав вязкую субстанцию, понимает, что это, вероятно, джем. Все это – не заученные движения, а импровизация на лету.
А где подвох? Их несколько
Физический мир – гадкий место. И π0.7 пока не идеальна.
- Скорость принятия решений. Рекурсивный поиск по графу примитивов требует серьезных вычислений. На Jetson AGX Thor такая модель будет думать несколько секунд перед каждым сложным действием. Для динамичных сред – недопустимо.
- Хрупкость абстракций. Если примитивы определены неверно (например, не учтен "примитив обхода скользкой поверхности"), робот может упасть, пытаясь выполнить логически верную, но физически опасную последовательность.
- Цена ошибки. В симуляции можно генерировать данные бесконечно. В реальности разбитая ваза – это убыток. Модель все еще нуждается в доработке системы безопасного exploration.
Именно эти проблемы пытаются решать конкуренты, такие как подход NVIDIA Cosmos Policy или методы из статьи про PhysicalAgent. Гонка за создание универсального робо-разума в разгаре.
| Подход / Модель | Композиционная генерализация | Ключевой принцип (2026) |
|---|---|---|
| Physical Intelligence π0.7 | Высокая (на уровне примитивов) | Рекурсивный диффузионный планировщик |
| Яндекс Роботикс (роботы-генералисты) | Средняя (на уровне навыков) | Использование фреймворка Guidance, тест Возняка |
| NVIDIA Cosmos Policy | Низкая (планирование в латентном пространстве) | Иерархическое обучение с подкреплением |
Что это значит для нас? Прогноз, который вас разозлит
Композиционная генерализация – не путь к сильному ИИ. Это путь к полезному ИИ. Робот, который может адаптироваться, не станет нашим повелителем. Он станет бесконечно терпеливым и креативным инструментом.
Первыми пострадают низкоквалифицированные рабочие места в логистике и простом сервисе. Но появится спрос на "робото-тренеров" – людей, которые будут формулировать задачи и описывать миру примитивы для новых моделей. Уже к концу 2027 года, по моим источникам, каждый крупный вендор будет иметь свою версию "композиционного мозга". Фишка в том, что лидером окажется не тот, у кого лучше железо (хотя чувствительные руки – огромное преимущество), а тот, кто создаст лучшую библиотеку универсальных физических примитивов. Эта библиотека и станет новым ПО для всего.
Так что, если вы все еще думаете, что роботы – это про механику, вы опоздали на пять лет. Теперь это про лингвистику, физику и архитектуру принятия решений. И π0.7 – первый, кто заставил эту тройку работать вместе без костылей в виде миллионов промптов, как в случае с роботом Грином. Добро пожаловать в эпоху, где робот не выполняет команды, а понимает намерения. Или, по крайней мере, очень убедительно это имитирует.