Прошлая неделя взорвала тихую заводь фундаментальных исследований. Янн Лекун, человек, без чьих работ не было бы современных нейросетей, только что закрыл раунд на $1 млрд для своего стартапа AMI Labs. Деньги пойдут не на очередную языковую модель. Не на улучшение ChatGPT. Цель - построить World Models, модели, которые понимают мир, а не просто текст.
Пока OpenAI и Google соревнуются в количестве триллионов параметров, Лекун пошел другим путем. Его JEPA архитектура (Joint Embedding Predictive Architecture) учится предсказывать, что будет дальше в видео, а не угадывать следующее слово. Разница фундаментальна. Это как научить ребенка физике, показывая мультики, а не заставляя читать учебник.
Миллиард за идею. Серьезно?
Инвесторы не стали бы выкладывать такие суммы за красивую теорию. К марту 2026 года AMI Labs уже показала работающие прототипы. Их последняя модель, JEPA-2V, способна по нескольким кадрам видео предсказать, упадет ли башня из кубиков, и что нужно сделать, чтобы этого не случилось. LLM вроде GPT-5 или Claude-3.5 могут описать сцену в деталях, но не «почувствуют» физику падения.
Лекун не первый год критикует тупиковость подхода LLM. Его главный аргумент: языковые модели — это всего лишь продвинутые автодополнения. Они блестяще имитируют понимание, но не обладают здравым смыслом. Не могут планировать. Не понимают причинно-следственных связей за пределами текстовых шаблонов.
JEPA против Transformer: два разных мира
Вся архитектура JEPA заточена под другую задачу. Если Transformer учится заполнять пропуски в тексте, то JEPA учится заполнять пропуски в представлениях о мире. Модель получает два «взгляда» на сцену (например, кадры видео с интервалом) и учится предсказывать, как высокоуровневое представление первой сцены превратится в представление второй.
| Критерий | Большие Языковые Модели (LLM) | Мировые Модели (JEPA) |
|---|---|---|
| Топливо для обучения | Текст, код, картинки с описаниями | Видео, сенсорные данные, действия и их результаты |
| Что выучивает | Статистические корреляции между словами | Причинно-следственные связи в физическом мире |
| Главный выход | Последовательность токенов (текст, код) | Представление состояния мира и предсказание его изменений |
| Слабое место | Галлюцинации, отсутствие планирования | Требует огромного объема неразмеченных видео-данных |
Это объясняет, почему LLM так часто не понимают, чего вы на самом деле хотите. Они не оперируют ментальными моделями ваших целей. World Models — оперируют. Или, по крайней мере, должны.
Что из этого получится к 2027 году?
Инвесторы видят здесь дорогу к ИИ, который не просто болтает, а действует. Роботы, которые учатся манипулировать объектами, просмотрев тысячи часов YouTube. Виртуальные ассистенты, которые могут спланировать ваш день, понимая реальные последствия «перенести встречу» или «купить продукты». Все, что требует здравого смысла и понимания физики.
Пока инфраструктура для LLM бьет рекорды по затратам (зарабатывая на этом, как vLLM), подход Лекуна выглядит аскетично. Ему не нужны гигантские датасеты размеченного текста. Нужны видео. Много видео. И мощные алгоритмы самообучения.
Не ждите, что завтра JEPA заменит ChatGPT для написания стихов. Это инструмент для другой работы. Но если вы думаете о создании ИИ-агента, который может играть в сложную видеоигру или управлять реальным процессом, то world models — единственный разумный путь. LLM здесь — как в истории с трейдингом — лишь неуклюжий посредник.
Совет от тех, кто следит за фундаменталкой: не зацикливайтесь на битве GPT-5 vs Gemini Ultra. Присмотритесь к скромным стартапам вроде AMI Labs и их открытым публикациям. Именно там, в тишине лабораторий, а не на шумных конференциях, рождается следующий прорыв. Тот, что заставит нас забыть про «промпт-инжиниринг» как таковой. Потому что с моделью, которая понимает мир, объяснять ничего не придется.