Что такое World Models (Мировые Модели)?

World Models — это тип ИИ-моделей, которые учатся строить внутреннее, сжимаемое представление о физическом мире, чтобы предсказывать последствия действий, а не просто генерировать текст. Они основаны на данных вроде видео и сенсорных потоков.

Чем архитектура JEPA отличается от LLM?

JEPA (Joint Embedding Predictive Architecture) предсказывает изменения в высокоуровневых представлениях мира (например, между кадрами видео), в то время как LLM на архитектуре Transformer предсказывают следующее слово в тексте. JEPA учит причинно-следственные связи, LLM — статистические корреляции в языке.

Почему Янн Лекун получил $1 млрд финансирования?

Инвесторы верят, что подход World Models на основе JEPA — это путь к созданию ИИ с здравым смыслом, способного к планированию и действию в реальном мире. К 2026 году AMI Labs уже продемонстрировала рабочие прототипы, такие как JEPA-2V, что подтверждает практический потенциал технологии.

$1 млрд для World Models: Зачем Янн Лекун получил рекордное финансирование

Прошлая неделя взорвала тихую заводь фундаментальных исследований. Янн Лекун, человек, без чьих работ не было бы современных нейросетей, только что закрыл раунд на $1 млрд для своего стартапа AMI Labs. Деньги пойдут не на очередную языковую модель. Не на улучшение ChatGPT. Цель - построить World Models, модели, которые понимают мир, а не просто текст.

Пока OpenAI и Google соревнуются в количестве триллионов параметров, Лекун пошел другим путем. Его JEPA архитектура (Joint Embedding Predictive Architecture) учится предсказывать, что будет дальше в видео, а не угадывать следующее слово. Разница фундаментальна. Это как научить ребенка физике, показывая мультики, а не заставляя читать учебник.

Миллиард за идею. Серьезно?

Инвесторы не стали бы выкладывать такие суммы за красивую теорию. К марту 2026 года AMI Labs уже показала работающие прототипы. Их последняя модель, JEPA-2V, способна по нескольким кадрам видео предсказать, упадет ли башня из кубиков, и что нужно сделать, чтобы этого не случилось. LLM вроде GPT-5 или Claude-3.5 могут описать сцену в деталях, но не «почувствуют» физику падения.

💡

World Models — это не про генерацию текста. Это про построение внутренней, сжимаемой модели мира, которая позволяет предсказывать последствия действий. LLM знают, что «яблоко падает», но не понимают, почему и что будет, если его подбросить вверх по наклонной плоскости.

Лекун не первый год критикует тупиковость подхода LLM. Его главный аргумент: языковые модели — это всего лишь продвинутые автодополнения. Они блестяще имитируют понимание, но не обладают здравым смыслом. Не могут планировать. Не понимают причинно-следственных связей за пределами текстовых шаблонов.

JEPA против Transformer: два разных мира

Вся архитектура JEPA заточена под другую задачу. Если Transformer учится заполнять пропуски в тексте, то JEPA учится заполнять пропуски в представлениях о мире. Модель получает два «взгляда» на сцену (например, кадры видео с интервалом) и учится предсказывать, как высокоуровневое представление первой сцены превратится в представление второй.

Критерий	Большие Языковые Модели (LLM)	Мировые Модели (JEPA)
Топливо для обучения	Текст, код, картинки с описаниями	Видео, сенсорные данные, действия и их результаты
Что выучивает	Статистические корреляции между словами	Причинно-следственные связи в физическом мире
Главный выход	Последовательность токенов (текст, код)	Представление состояния мира и предсказание его изменений
Слабое место	Галлюцинации, отсутствие планирования	Требует огромного объема неразмеченных видео-данных

Это объясняет, почему LLM так часто не понимают, чего вы на самом деле хотите. Они не оперируют ментальными моделями ваших целей. World Models — оперируют. Или, по крайней мере, должны.

Что из этого получится к 2027 году?

Инвесторы видят здесь дорогу к ИИ, который не просто болтает, а действует. Роботы, которые учатся манипулировать объектами, просмотрев тысячи часов YouTube. Виртуальные ассистенты, которые могут спланировать ваш день, понимая реальные последствия «перенести встречу» или «купить продукты». Все, что требует здравого смысла и понимания физики.

Пока инфраструктура для LLM бьет рекорды по затратам (зарабатывая на этом, как vLLM), подход Лекуна выглядит аскетично. Ему не нужны гигантские датасеты размеченного текста. Нужны видео. Много видео. И мощные алгоритмы самообучения.

Не ждите, что завтра JEPA заменит ChatGPT для написания стихов. Это инструмент для другой работы. Но если вы думаете о создании ИИ-агента, который может играть в сложную видеоигру или управлять реальным процессом, то world models — единственный разумный путь. LLM здесь — как в истории с трейдингом — лишь неуклюжий посредник.

Совет от тех, кто следит за фундаменталкой: не зацикливайтесь на битве GPT-5 vs Gemini Ultra. Присмотритесь к скромным стартапам вроде AMI Labs и их открытым публикациям. Именно там, в тишине лабораторий, а не на шумных конференциях, рождается следующий прорыв. Тот, что заставит нас забыть про «промпт-инжиниринг» как таковой. Потому что с моделью, которая понимает мир, объяснять ничего не придется.

Подписаться на канал

World Models против LLM: за что Янн Лекун получил $1 млрд и почему это важно

Миллиард за идею. Серьезно?

JEPA против Transformer: два разных мира

Что из этого получится к 2027 году?

Подписывайтесь на наш канал!