1X World Model: Как Neo учится на видео и промптах | AI Новости | AiManual
AiManual Logo Ai / Manual.
13 Янв 2026 Новости

1X World Model: Новая модель мира, которая кормит роботов YouTube'ом и промптами

Создатели робота Neo представили World Model — модель, которая учит роботов физике мира на обычных видео и текстовых инструкциях. Что это меняет?

Еще вчера роботы учились в дорогих симуляторах. Сегодня они смотрят YouTube

Команда 1X Technologies, та самая, что создала домашнего робота Neo, выкатила нечто более фундаментальное, чем железо. Они назвали это 1X World Model. Звучит скромно, но суть проста и радикальна: эта модель учится понимать физический мир, просматривая горы обычных видеороликов и читая текстовые описания к ним. Никаких сложных симуляций, никакого ручного программирования каждого движения. Просто дайте ей доступ в интернет.

Что это значит: Если раньше для обучения робота "поднять чашку" требовались тысячи часов в контролируемой лаборатории, то теперь модель может изучить концепцию "чашки", "руки" и "подъема", посмотрев, как это делают люди в тысячах разных видео на YouTube, TikTok или в обучающих роликах.

Зачем роботу модель мира? Он же не философ

Это самый важный вопрос. Текущие крупные языковые модели (LLM) вроде GPT-4 блестяще работают с текстом. Они могут написать поэму о чашке, но не имеют ни малейшего понятия, что эта чашка твердая, хрупкая, может упасть и разбиться, а горячий кофе внутри может пролиться и обжечь. У них нет внутренней, интуитивной физической модели мира.

World Model от 1X пытается встроить эту физику напрямую. Она не просто распознает объекты на видео. Она учится предсказывать, что произойдет дальше. Шар катится по столу — куда он упадет? Дверь открывается — насколько широко? Это тот самый тип здравого смысла, которого так не хватает даже самым продвинутым ИИ.

Как это работает? Алхимия из видео и текста

Технических деталей 1X выложила немного (классический маркетинг в стиле "смотрите, как круто, но как именно — наш секрет"). Однако из того, что известно, процесс выглядит так:

  1. Сбор данных: Модель загружают миллионами часов разнообразного видеоконтента из открытых источников. От кулинарных шоу до спортивных соревнований, от ремонтных работ до домашних видео с котиками.
  2. Связка с текстом: К каждому видео или его фрагменту привязываются текстовые описания, субтитры, промпты. Например, видео, где человек наливает воду в стакан, сопровождается текстом: "человек берет кувшин и наливает воду в стеклянный стакан".
  3. Самообучение: Модель учится самостоятельно, без явного человеческого надзора, вычленять из этого хаоса ключевые концепции: объекты, их свойства, действия, причинно-следственные связи. Она строит внутреннее представление о том, как устроен мир.
  4. Перенос на робота: Это обученное представление мира затем используется для управления физическим роботом, таким как Neo. Робот получает команду на естественном языке ("принеси мне бутылку воды из холодильника"), и World Model помогает ему спланировать последовательность действий, основываясь на том, что она "видела" в видео.
💡
Это похоже на подход NVIDIA Cosmos Reason, но с другим акцентом. Если Cosmos делает ставку на рассуждения, основанные на физических законах, то 1X World Model — на чистое наблюдение и имитацию.

Почему это может изменить всё (или оказаться пустышкой)

Потенциал огромен. Представьте, что для обучения нового навыка роботу не нужно писать код или проводить месяцы в симуляторе. Достаточно показать ему несколько примеров на видео или даже просто описать задачу текстом. Это открывает двери для быстрой адаптации роботов к новым, непредсказуемым условиям — тем самым, в которых мы, люди, и живем.

Но есть и "но": Интернет-видео — это не чистые, аккуратные данные. Это мемы, монтаж, спецэффекты, искаженная перспектива. Модель может выучить, что люди умеют летать (благодаря фильмам) или что предметы исчезают при склейке кадра. Качество и надежность выученных таким образом физических законов — большой вопрос.

Это та же проблема, что и у World Models от Runway, но в контексте физических действий, а не генерации видео. Ошибка в симуляции картинки — это артефакт. Ошибка в модели мира робота-гуманоида — это разбитая ваза, сломанная рука или хуже.

Куда это ведет? Битва подходов

1X World Model ставит четкую ставку на один из двух путей развития робототехнического ИИ:

Подход "Снизу вверх" (1X, Runway) Подход "Сверху вниз" (NVIDIA Cosmos, Grokkit)
Учимся на сырых данных (видео) Встраиваем формальные знания (физика, математика)
Гибкость, адаптивность Надежность, предсказуемость
Риск выучить "иллюзии" интернета Риск быть слишком жестким для реального мира
Пример: Наблюдаем, как открывают тысячи разных дверей. Пример: Рассчитываем силу и траекторию, исходя из законов механики.

Победит, скорее всего, гибрид. Модель, которая, как PhysicalAgent, сможет использовать здравый смысл, выученный из видео, но проверять его через внутренние симуляции, основанные на физике. Или фреймворк в духе Grokkit, который будет использовать математику для "очистки" знаний, добытых из интернета.

Что дальше? Ждем первых синяков и разбитых чашек

Анонс 1X World Model — это не релиз готового продукта. Это заявка на будущее. Следующие несколько месяцев покажут, насколько эта модель действительно полезна для управления реальным роботом Neo вне controlled environment. Появятся ли первые видео, где Neo, обученный на кулинарных шоу, попытается "смонтировать" салат, резко переставляя ингредиенты? Или, наоборот, плавно и аккуратно накроет на стол?

Одно ясно точно: гонка за создание ИИ, который понимает мир не через текст, а через действия и их последствия, вышла на новый виток. И теперь в ней участвуют не только гиганты вроде NVIDIA с их Isaac Lab, но и более амбициозные стартапы, готовые кормить своих роботов тем же контентом, что и нас.

Мой прогноз? Первые реальные, полезные применения мы увидим не в хаотичной домашней среде, а в более структурированных логистических или складских задачах, где вариативность ниже, а видео-инструкций в сети — море. А домашний робот, который не уронит вашу вазу, потому что видел, как ее бережно держат в тысяче роликов, — это все еще история на 5-7 лет вперед. Если, конечно, его не обучит какой-нибудь открытый фреймворк раньше.