Чем Genie 3 отличается от Sora от OpenAI?

Sora генерирует статичные видео по промпту, а Genie 3 создает интерактивные симуляции — цифровые миры, где можно взаимодействовать с объектами в реальном времени.

На каких данных обучается Genie 3?

Модель обучается на неразмеченных видео из интернета, в основном YouTube и игровых стримах, без участия человека в разметке данных.

Какое разрешение и FPS у Genie 3?

Genie 3 работает в разрешении 720p с частотой 24 кадра в секунду, что делает симуляции плавными и детализированными.

Почему Genie 3 важен для развития AGI?

Модель дает ИИ понимание физического мира и причинно-следственных связей, что критически отсутствует у современных языковых моделей, делая их ближе к общему искусственному интеллекту.

Доступен ли код Genie 3 для публичного использования?

Нет, DeepMind пока не опубликовал код, веса или детали архитектуры Genie 3, предоставив только демо-ролик и технический отчет.

Genie 3 от DeepMind: модель миров, интерактивная генерация и путь к AGI

Genie 3 — это не просто генератор видео. Это машина времени

Представьте, что вы даете ИИ одну фотографию комнаты. Не видео, не 3D-модель — просто статичный кадр. А он отвечает: "Хочешь, покажу, что будет, если ты откроешь эту дверь? Или включишь свет? Или бросишь мяч в окно?" И показывает. В реальном времени. 24 кадра в секунду, 720p, с физикой, которая почти не отличима от реальной.

Это не научная фантастика. Это Genie 3 от DeepMind. И после его анонса все разговоры про Sora от OpenAI внезапно звучат как обсуждение парового двигателя на фоне реактивного самолета.

Genie 3 — это foundation model для генерации интерактивных миров. Она учится на неразмеченных видео из интернета (YouTube, игровые стримы) и строит внутреннее представление о том, как устроен мир. Не просто предсказывает следующий кадр — понимает причинно-следственные связи.

Чем Genie 3 отличается от всего, что было раньше?

Забудьте про Genie 1 и 2. Это были игрушки — proof of concept, которые работали на низком разрешении с аркадной графикой. Genie 3 — это промышленный инструмент.

Модель	Разрешение	FPS	Интерактивность	Что умеет
Genie 1	64×64	10	Ограниченная	Простые 2D-миры
Sora (OpenAI)	до 1080p	30	Нет	Генерация видео по промпту
Genie 3	720p	24	Полная	Интерактивные 3D-миры из фото

Sora генерирует красивые видео, но они статичны. Ты смотришь фильм, который нельзя изменить. Genie 3 создает симуляцию — цифровую песочницу, где каждый объект реагирует на твои действия. Открываешь дверь — видишь, что за ней. Бросаешь мяч — наблюдаешь, как он отскакивает от стен.

Как это технически возможно? (Спойлер: магия)

Если не вдаваться в математические дебри, Genie 3 работает примерно так:

1 Сжатие в латентное пространство

Модель берет видео (или фото) и сжимает его в компактное представление — латентные векторы. Это как JPEG, но для смысла, а не для пикселей. В этих векторах закодирована не только визуальная информация, но и физические свойства объектов.

2 Динамическая модель

Отдельный модуль учится предсказывать, как латентное состояние изменится при определенных действиях. "Если в этом состоянии нажать кнопку 'вперед', то латентные векторы сдвинутся вот так". Это и есть world model — модель мира.

3 Декодирование обратно в видео

Третий модуль берет обновленные латентные векторы и превращает их обратно в пиксели. Кадр за кадром. 24 раза в секунду.

💡

Ключевой трюк — обучение без учителя. DeepMind не нанимала армию разметчиков, чтобы те описывали каждое действие в видео. Модель сама выучила, что такое "ходить", "прыгать", "открывать" из миллионов часов YouTube-роликов.

Почему это важнее, чем кажется?

Потому что Genie 3 — не про генерацию контента. Это про понимание.

Когда ИИ может предсказать, что будет, если толкнуть чашку со стола, он понимает гравитацию. Когда он знает, что дверь открывается внутрь, а не наружу, он понимает механику. Когда он сохраняет консистентность объектов на протяжении сотен кадров — у него есть память.

Это именно тот тип интеллекта, которого не хватает современным LLM. ChatGPT может красиво рассуждать о физике, но не понимает ее на интуитивном уровне. Как мы писали ранее, большие языковые модели предсказывают текст, а не вычисляют мир. Genie 3 вычисляет.

Самое тревожное: DeepMind не выложил код. Ни весов, ни архитектурных деталей. Только красивый демо-ролик и технический отчет. Это значит, что у них есть как минимум год форы перед open-source сообществом. И они этим пользуются.

Genie 3 против всего остального мира

Пока OpenAI тратит триллионы на потребительское железо и облака, DeepMind решает фундаментальные проблемы. Разница в подходе поражает:

Nvidia Isaac Lab учит роботов в симуляторе, но симулятор пишут вручную. Genie 3 создает симулятор автоматически из видео.
Bitterbot AI с их 15M-параметровой моделью решает тесты ARC, но не умеет взаимодействовать с миром.
Open-source модели для агентов из нашего топа хороши для RAG и планирования, но у них нет "тела" — нет связи с физическим миром.

Genie 3 дает ИИ это тело. Пусть и виртуальное.

Что будет дальше? (Спойлер: AGI станет ближе)

Представьте связку:

# Псевдокод будущего ИИ-агента
llm = GPT5()  # Языковая модель для планирования
world_model = Genie3()  # Модель мира для симуляции

# Агент решает задачу "приготовь завтрак"
plan = llm.generate_plan("приготовь яичницу")

# Перед тем как действовать в реальном мире,
# агент проигрывает сценарий в симуляции
for action in plan:
    simulation_result = world_model.predict(current_state, action)
    
    # Если в симуляции он разбил яйцо мимо сковородки,
    # корректирует план
    if simulation_result["egg_missed"]:
        plan = llm.adjust_plan(plan, "быть аккуратнее")

# Только после успешной симуляции действует в реальности
execute_in_real_world(plan)

Это и есть путь к AGI. Не через увеличение параметров (хотя триллионные модели тоже появятся), а через интеграцию разных типов интеллекта.

Genie 3 решает проблему, о которой мы писали полгода назад: LLM без модели мира — это калькулятор, который умеет только считать слова. Теперь у нас появился калькулятор, который понимает, как падают яблоки.

Кому это нужно прямо сейчас?

Пока Genie 3 не доступен публично, но его архитектурные идеи уже меняют ландшафт:

Разработчики игр — автоматическая генерация интерактивных миров из концепт-артов.
Робототехника — обучение роботов в симуляторах, которые сами создаются из видео реального мира. Alpamayo от Nvidia уже движется в этом направлении.
Образование — интерактивные симуляции физических экспериментов, исторических событий, биологических процессов.
Архитектура и дизайн — клиент не просто смотрит 3D-модель, а "живет" в ней, проверяя, как будет выглядеть пространство при разном освещении, с разной мебелью.

Но есть и темная сторона: deepfakes нового поколения. Не просто поддельное видео, а интерактивная симуляция человека, который отвечает на вопросы, двигается, реагирует. И все это в реальном времени. Готовьтесь к войне с контентом, который невозможно отличить от реальности.

Что делать, пока ждем Genie 4?

Если вы разработчик и хотите поиграть с похожими технологиями:

Изучайте диффузионные модели для видео — Stable Video Diffusion уже дает базовое понимание.
Экспериментируйте с трансформерами для последовательностей — архитектура, похожая на ту, что используется в Genie 3.
Собирайте локальные RAG-системы — это даст опыт работы с многомодальными агентами.
Следите за Nvidia Isaac Lab — их подход к симуляции роботов самый продвинутый из доступных.

Genie 3 — это не финишная прямая к AGI. Это первый серьезный указатель на карте. Раньше мы шли вслепую, надеясь, что увеличение размера моделей как-то само по себе приведет к разуму. Теперь у нас есть компас: мир нужно не предсказывать, а вычислять. И DeepMind только что показала, как это делать.

Осталось подождать, пока они поделятся кодом. Или пока GPT-5.2 и Gemini 3 не представят свои версии моделей миров. Гонка только начинается. И на этот раз ставки — не на красивые картинки, а на понимание реальности.

Genie 3: как DeepMind заставляет ИИ видеть будущее (и почему это страшно)