Physical Intelligence π0.7: композиционная генерализация роботов | AiManual
AiManual Logo Ai / Manual.
16 Апр 2026 Новости

Physical Intelligence π0.7: как новая модель робота достигает композиционной генерализации

Новая модель Physical Intelligence π0.7 достигает композиционной генерализации — способности комбинировать известные навыки для решения новых задач. Как это мен

Робот, который импровизирует

Ваш посудомоечный робот отлично моет тарелки. Пылесосный – безупречно собирает крошки. Попросите их поменяться задачами? Получите хаос из битой керамики и размазанной грязи. Потому что современные роботы – идиоты-саванты. Они знают один трюк и не способны к импровизации. До сегодняшнего дня.

Команда Physical Intelligence только что выкатила модель π0.7. И это не очередное инкрементальное обновление. Это первая в мире архитектура, которая демонстрирует настоящую композиционную генерализацию в физическом мире. Проще говоря, робот научился собирать новые действия из старых, как лего. Не видел задачи? Не беда. Скомбинирую то, что умею, и сделаю.

Что это за зверь такой – композиционная генерализация?

Представьте, что вас научили открывать дверь ключом и наливать воду в стакан. Стандартный ИИ-робот запомнит эти два сценария как отдельные скрипты. Попросите его налить воды, а потом открыть дверь – он справится. Попросите открыть дверь, используя стакан воды? Тупик. Его мозг не умеет разбирать навыки на атомарные компоненты ("взять предмет", "повернуть", "наклонить") и собирать их в новые последовательности.

💡
Композиционная генерализация – это holy grail робототехники. Способность, которая есть у каждого трехлетнего ребенка, но которую десятилетиями не могли запихнуть в "мозг" из кремния. Речь не о прогнозировании следующего слова, а о создании нового плана действий из знакомых кирпичиков.

Именно об этой фундаментальной проблеме мы писали в материале про причины, по которым роботы плохо ходят. Баланс и сенсорика – это лишь верхушка айсберга. Настоящая драма разворачивалась в их неспособности к абстрактному мышлению.

Как π0.7 ломает систему

В основе модели – гибридная архитектура, которую инсайдеры называют "рекурсивным диффузионным планировщиком". Звучит сложно, но принцип прост. Вместо того чтобы учить робота выполнять задачу от А до Я, π0.7 дробит мир на примитивы.

  • Примитив силы: толкнуть, потянуть, удержать.
  • Примитив пространства: обойти, поместить внутрь, расположить рядом.
  • Примитив объекта: идентифицировать хрупкое, твердое, жидкое.

Модель обучали не на миллионах часов реальных действий роботов (это дорого и медленно), а на синтетических данных из физических симуляторов нового поколения и, что любопытно, на видеороликах. Да, вы не ослышались. Часть "понимания мира" π0.7 позаимствовала у моделей, которые учились смотреть YouTube, похожим на подход, описанный в статье про 1X World Model.

Когда вы даете π0.7 новую инструкцию (скажем, "используй губку, чтобы протереть пролитую воду со стола"), она не ищет в памяти готовый скрипт "уборка пролитой жидкости". Вместо этого:

  1. Декомпозирует цель на примитивы: "найти абсорбирующий объект", "приложить к жидкости", "переместить с поверхности".
  2. Смотрит, какие последовательности примитивов уже известны из других задач ("взять предмет", "протереть поверхность").
  3. Собирает новую цепочку действий, проверяя ее на физическую реализуемость в внутренней симуляции.

Важный нюанс: π0.7 – это именно "мозг", policy-модель. Ей нужна физическая оболочка – робот с манипуляторами и сенсорами. Но ее архитектура спроектирована так, чтобы быть аппаратно-агностичной. Теоретически, ее можно загрузить и в Tesla Optimus Gen 3 с его чувствительными руками, и в промышленного Atlas, о новых когнитивных способностях которого мы рассказывали здесь.

На что это похоже в реальности? Тест "Завтрак в незнакомой кухне"

В демонстрационном видео (не постановочном, уверяют разработчики) роботу с моделью π0.7 дают задачу: "Приготовь тост с джемом". Он впервые видит эту конкретную кухню. Хлеб лежит в незнакомом шкафу, нож – в странном держателе, тостер – новой модели.

Старый ИИ бы завис. Новый – действует. Он открывает шкафы, пока не находит объект, похожий на хлеб (примитив поиска + идентификации). Берет его (примитив захвата). Находит устройство с прорезями (тостер) и помещает хлеб внутрь, используя известный примитив "вставить объект А в слот Б". Пока хлеб жарится, он ищет банку, встряхивает ее и, распознав вязкую субстанцию, понимает, что это, вероятно, джем. Все это – не заученные движения, а импровизация на лету.

А где подвох? Их несколько

Физический мир – гадкий место. И π0.7 пока не идеальна.

  • Скорость принятия решений. Рекурсивный поиск по графу примитивов требует серьезных вычислений. На Jetson AGX Thor такая модель будет думать несколько секунд перед каждым сложным действием. Для динамичных сред – недопустимо.
  • Хрупкость абстракций. Если примитивы определены неверно (например, не учтен "примитив обхода скользкой поверхности"), робот может упасть, пытаясь выполнить логически верную, но физически опасную последовательность.
  • Цена ошибки. В симуляции можно генерировать данные бесконечно. В реальности разбитая ваза – это убыток. Модель все еще нуждается в доработке системы безопасного exploration.

Именно эти проблемы пытаются решать конкуренты, такие как подход NVIDIA Cosmos Policy или методы из статьи про PhysicalAgent. Гонка за создание универсального робо-разума в разгаре.

Подход / Модель Композиционная генерализация Ключевой принцип (2026)
Physical Intelligence π0.7 Высокая (на уровне примитивов) Рекурсивный диффузионный планировщик
Яндекс Роботикс (роботы-генералисты) Средняя (на уровне навыков) Использование фреймворка Guidance, тест Возняка
NVIDIA Cosmos Policy Низкая (планирование в латентном пространстве) Иерархическое обучение с подкреплением

Что это значит для нас? Прогноз, который вас разозлит

Композиционная генерализация – не путь к сильному ИИ. Это путь к полезному ИИ. Робот, который может адаптироваться, не станет нашим повелителем. Он станет бесконечно терпеливым и креативным инструментом.

Первыми пострадают низкоквалифицированные рабочие места в логистике и простом сервисе. Но появится спрос на "робото-тренеров" – людей, которые будут формулировать задачи и описывать миру примитивы для новых моделей. Уже к концу 2027 года, по моим источникам, каждый крупный вендор будет иметь свою версию "композиционного мозга". Фишка в том, что лидером окажется не тот, у кого лучше железо (хотя чувствительные руки – огромное преимущество), а тот, кто создаст лучшую библиотеку универсальных физических примитивов. Эта библиотека и станет новым ПО для всего.

Так что, если вы все еще думаете, что роботы – это про механику, вы опоздали на пять лет. Теперь это про лингвистику, физику и архитектуру принятия решений. И π0.7 – первый, кто заставил эту тройку работать вместе без костылей в виде миллионов промптов, как в случае с роботом Грином. Добро пожаловать в эпоху, где робот не выполняет команды, а понимает намерения. Или, по крайней мере, очень убедительно это имитирует.

Подписаться на канал