Что такое композиционная генерализация в робототехнике?

Это способность робота разбивать известные навыки на базовые компоненты (примитивы) и комбинировать их в новые последовательности для решения задач, которым его явно не обучали. Аналогично тому, как человек, умеющий открывать дверь и наливать воду, может догадаться использовать стакан, чтобы открыть дверь, если нет ключа.

Чем модель π0.7 отличается от предыдущих версий или аналогов?

π0.7 использует архитектуру 'рекурсивного диффузионного планировщика', который оперирует библиотекой физических примитивов (толкнуть, найти, вставить). В отличие от моделей, которые запоминают готовые скрипты действий (как многие VLA-модели), π0.7 строит новые планы на лету, проверяя их в внутренней симуляции. Это качественный скачок от запоминания к пониманию.

Physical Intelligence π0.7: композиционная генерализация роботов

Робот, который импровизирует

Ваш посудомоечный робот отлично моет тарелки. Пылесосный – безупречно собирает крошки. Попросите их поменяться задачами? Получите хаос из битой керамики и размазанной грязи. Потому что современные роботы – идиоты-саванты. Они знают один трюк и не способны к импровизации. До сегодняшнего дня.

Команда Physical Intelligence только что выкатила модель π0.7. И это не очередное инкрементальное обновление. Это первая в мире архитектура, которая демонстрирует настоящую композиционную генерализацию в физическом мире. Проще говоря, робот научился собирать новые действия из старых, как лего. Не видел задачи? Не беда. Скомбинирую то, что умею, и сделаю.

Что это за зверь такой – композиционная генерализация?

Представьте, что вас научили открывать дверь ключом и наливать воду в стакан. Стандартный ИИ-робот запомнит эти два сценария как отдельные скрипты. Попросите его налить воды, а потом открыть дверь – он справится. Попросите открыть дверь, используя стакан воды? Тупик. Его мозг не умеет разбирать навыки на атомарные компоненты ("взять предмет", "повернуть", "наклонить") и собирать их в новые последовательности.

💡

Композиционная генерализация – это holy grail робототехники. Способность, которая есть у каждого трехлетнего ребенка, но которую десятилетиями не могли запихнуть в "мозг" из кремния. Речь не о прогнозировании следующего слова, а о создании нового плана действий из знакомых кирпичиков.

Именно об этой фундаментальной проблеме мы писали в материале про причины, по которым роботы плохо ходят. Баланс и сенсорика – это лишь верхушка айсберга. Настоящая драма разворачивалась в их неспособности к абстрактному мышлению.

Как π0.7 ломает систему

В основе модели – гибридная архитектура, которую инсайдеры называют "рекурсивным диффузионным планировщиком". Звучит сложно, но принцип прост. Вместо того чтобы учить робота выполнять задачу от А до Я, π0.7 дробит мир на примитивы.

Примитив силы: толкнуть, потянуть, удержать.
Примитив пространства: обойти, поместить внутрь, расположить рядом.
Примитив объекта: идентифицировать хрупкое, твердое, жидкое.

Модель обучали не на миллионах часов реальных действий роботов (это дорого и медленно), а на синтетических данных из физических симуляторов нового поколения и, что любопытно, на видеороликах. Да, вы не ослышались. Часть "понимания мира" π0.7 позаимствовала у моделей, которые учились смотреть YouTube, похожим на подход, описанный в статье про 1X World Model.

Когда вы даете π0.7 новую инструкцию (скажем, "используй губку, чтобы протереть пролитую воду со стола"), она не ищет в памяти готовый скрипт "уборка пролитой жидкости". Вместо этого:

Декомпозирует цель на примитивы: "найти абсорбирующий объект", "приложить к жидкости", "переместить с поверхности".
Смотрит, какие последовательности примитивов уже известны из других задач ("взять предмет", "протереть поверхность").
Собирает новую цепочку действий, проверяя ее на физическую реализуемость в внутренней симуляции.

Важный нюанс: π0.7 – это именно "мозг", policy-модель. Ей нужна физическая оболочка – робот с манипуляторами и сенсорами. Но ее архитектура спроектирована так, чтобы быть аппаратно-агностичной. Теоретически, ее можно загрузить и в Tesla Optimus Gen 3 с его чувствительными руками, и в промышленного Atlas, о новых когнитивных способностях которого мы рассказывали здесь.

На что это похоже в реальности? Тест "Завтрак в незнакомой кухне"

В демонстрационном видео (не постановочном, уверяют разработчики) роботу с моделью π0.7 дают задачу: "Приготовь тост с джемом". Он впервые видит эту конкретную кухню. Хлеб лежит в незнакомом шкафу, нож – в странном держателе, тостер – новой модели.

Старый ИИ бы завис. Новый – действует. Он открывает шкафы, пока не находит объект, похожий на хлеб (примитив поиска + идентификации). Берет его (примитив захвата). Находит устройство с прорезями (тостер) и помещает хлеб внутрь, используя известный примитив "вставить объект А в слот Б". Пока хлеб жарится, он ищет банку, встряхивает ее и, распознав вязкую субстанцию, понимает, что это, вероятно, джем. Все это – не заученные движения, а импровизация на лету.

А где подвох? Их несколько

Физический мир – гадкий место. И π0.7 пока не идеальна.

Скорость принятия решений. Рекурсивный поиск по графу примитивов требует серьезных вычислений. На Jetson AGX Thor такая модель будет думать несколько секунд перед каждым сложным действием. Для динамичных сред – недопустимо.
Хрупкость абстракций. Если примитивы определены неверно (например, не учтен "примитив обхода скользкой поверхности"), робот может упасть, пытаясь выполнить логически верную, но физически опасную последовательность.
Цена ошибки. В симуляции можно генерировать данные бесконечно. В реальности разбитая ваза – это убыток. Модель все еще нуждается в доработке системы безопасного exploration.

Именно эти проблемы пытаются решать конкуренты, такие как подход NVIDIA Cosmos Policy или методы из статьи про PhysicalAgent. Гонка за создание универсального робо-разума в разгаре.

Подход / Модель	Композиционная генерализация	Ключевой принцип (2026)
Physical Intelligence π0.7	Высокая (на уровне примитивов)	Рекурсивный диффузионный планировщик
Яндекс Роботикс (роботы-генералисты)	Средняя (на уровне навыков)	Использование фреймворка Guidance, тест Возняка
NVIDIA Cosmos Policy	Низкая (планирование в латентном пространстве)	Иерархическое обучение с подкреплением

Что это значит для нас? Прогноз, который вас разозлит

Композиционная генерализация – не путь к сильному ИИ. Это путь к полезному ИИ. Робот, который может адаптироваться, не станет нашим повелителем. Он станет бесконечно терпеливым и креативным инструментом.

Первыми пострадают низкоквалифицированные рабочие места в логистике и простом сервисе. Но появится спрос на "робото-тренеров" – людей, которые будут формулировать задачи и описывать миру примитивы для новых моделей. Уже к концу 2027 года, по моим источникам, каждый крупный вендор будет иметь свою версию "композиционного мозга". Фишка в том, что лидером окажется не тот, у кого лучше железо (хотя чувствительные руки – огромное преимущество), а тот, кто создаст лучшую библиотеку универсальных физических примитивов. Эта библиотека и станет новым ПО для всего.

Так что, если вы все еще думаете, что роботы – это про механику, вы опоздали на пять лет. Теперь это про лингвистику, физику и архитектуру принятия решений. И π0.7 – первый, кто заставил эту тройку работать вместе без костылей в виде миллионов промптов, как в случае с роботом Грином. Добро пожаловать в эпоху, где робот не выполняет команды, а понимает намерения. Или, по крайней мере, очень убедительно это имитирует.

Подписаться на канал

Physical Intelligence π0.7: как новая модель робота достигает композиционной генерализации