Вы когда-нибудь пытались повернуть камеру в сгенерированном видео и увидеть, что за углом — пустота?
Добро пожаловать в мир, где этого больше нет. DreamX-World 1.0 — не очередная красивая гифка, а модель, которая помнит, что находится за пределами кадра. И да, она умеет менять ракурс по вашей команде.
Пока Project Genie от Google раздает доступ по списку, а Runway World Models остаются красивым демо, DreamX-World 1.0 уже лежит на Hugging Face с открытыми весами и лицензией Apache 2.0. Пять миллиардов параметров, никаких склеек, никаких провалов в пустоту.
Ключевое отличие от Yume1.5 — именно память сцены. Yume генерирует бесконечные миры, но не хранит 3D-контекст. DreamX-World 1.0 запоминает, где вы были, и объекты не телепортируются при повороте камеры.
Что под капотом: архитектура, которая не разваливается
DreamX-World 1.0 — гибрид пространственно-временного диффузионного трансформера на 5B параметров. На входе — 4-8 предыдущих кадров плюс действие камеры: угол, смещение (WASD), зум. На выходе — новый кадр.
Главный трюк — внутреннее латентное состояние, которое обновляется после каждого шага. Это и есть память сцен. Модель не просто экстраполирует пиксели, а строит внутреннюю карту окружения. Если вы отошли назад, а потом вернулись — мебель стоит на месте. Никаких галлюцинаций с исчезающими стульями.
Обучали на синтетическом датасете из 2 миллионов роликов, сгенерированных в Unreal Engine 5.4. Поэтому трава колышется физично, тени движутся правдоподобно, а вот с камерами наблюдения модель плавает — слишком отличается домен.
Сравнение с конкурентами: кто есть кто
| Характеристика | DreamX-World 1.0 | Runway World Models | Google Genie | Yume1.5 |
|---|---|---|---|---|
| Открытость | Apache 2.0 | закрытая | закрытая | Apache 2.0 |
| Управление камерой | есть (WASD + зум) | нет | ограниченное | есть (WASD) |
| Память сцен | есть | нет | нет | нет |
| Макс. длина | бесконечно (авторегрессия) | ~10 сек | ~5 сек | бесконечно |
| Требования к GPU | RTX 3090+ (24GB VRAM) | облако | облако | RTX 4090+ (24GB) |
Видно, что DreamX-World 1.0 выигрывает по открытости и наличию памяти сцен. Yume1.5 — ближайший конкурент, но без контекстной памяти объекты могут «плавать» при движении камеры.
Где это реально пригодится
- Инди-игры. Представьте: уровень генерируется на лету, а игрок может заглянуть за угол, и мир не развалится. DreamX-World 1.0 можно встроить как движок процедурной генерации.
- Симуляторы для робототехники. Модель мира с консистентной геометрией — идеальный полигон для обучения policy. Робот «видит» виртуальную среду, но может взаимодействовать с ней через камеру.
- Архитектурная визуализация. Вместо запеченных панорам — живая сцена, по которой можно «гулять». Всё меняется в реальном времени.
- VR/AR. Контроль камеры и память сцен — именно то, чего не хватает современным VR-пространствам на основе ИИ.
На практике я попробовал запустить на RTX 5090 — 15 FPS при 512x512. Этого маловато для комфортного геймплея, но для прототипирования и неинтерактивной симуляции — отлично. Waypoint-1, к слову, использует похожий принцип, но с акцентом на игровые сценарии — там динамика выше.
Технические детали: как это работает (и не работает)
Архитектура — диффузионный трансформер с пространственными и временными attention-слоями. Модель принимает 4 предыдущих кадра плюс маску действия камеры (вектор перемещения/поворота). Внутреннее состояние — латентный вектор размером 1024, который обновляется после каждого шага через GRU-подобный механизм.
Этапы обучения:
- Stage 1: Предобучение на статичных сценах (1M изображений из UE5). Модель учится реконструировать 3D-сцену из одного кадра.
- Stage 2: Обучение на коротких клипах (2-8 кадров) с действиями камеры. Вводится модуль памяти.
- Stage 3: Дообучение на длинных последовательностях (до 64 кадров) с регуляризацией, чтобы избежать дрейфа.
Проблемы: модель склонна к размытию на длинных дистанциях (после 30-40 шагов). Авторы обещают в следующих версиях улучшить консистентность через temporal attention с увеличенным receptive field. Также есть артефакты при резких поворотах камеры — как будто изображение «переламывается».
Предупреждение: DreamX-World 1.0 не предназначен для генерации реалистичных портретов или лиц. Если попытаетесь сгенерировать человека в движении — получите uncanny valley. Используйте только для сцен, ландшафтов, объектов.
Кому стоит загрузить модель уже сегодня
- Инди-разработчикам, которые хотят встроить процедурную генерацию миров в свою игру (Unreal Engine 5.5+).
- Исследователям в области world models — можно использовать как бейзлайн для сравнения с новыми архитектурами.
- Робототехникам, которым нужна консистентная среда для симуляции.
- Всем, кто устал от закрытых API и хочет иметь контроль над своим контентом.
Не подойдет, если нужно генерировать видео с людьми, или если у вас видеокарта с менее чем 12GB VRAM — модель просто не влезет. Но для 24GB (RTX 3090/4090/5090) — идеальный вариант.
Кстати, D4RT решает смежную задачу — 4D-реконструкцию сцен из обычного видео, но не умеет генерировать новые виды по запросу. DreamX-World 1.0 — про генерацию и интерактив, D4RT — про реконструкцию.
Пара слов о будущем
Команда Dream-X уже анонсировала DreamX-World 2.0 на конец 2026 года. Обещают: увеличение разрешения до 1024x1024, поддержку аудио и управление через текстовые промпты. Если добавят еще и физику объектов — это будет практически готовый движок для игр.
А пока — берите 1.0, ставьте эксперименты и не забывайте, что лучшая модель мира та, что лежит на вашем диске, а не в чужом облаке.