Сколько FPS показывает Yume1.5 на A100?

12 кадров в секунду после прогрева кэша, что в 70 раз быстрее Google Genie.

Какое разрешение генерирует Yume1.5?

256×256 пикселей, что сравнимо с играми середины 2000-х годов.

Нужна ли специальная видеокарта для запуска Yume1.5?

Да, требуется минимум 48GB VRAM, оптимально - NVIDIA A100 или H100 с 80GB памяти.

Чем Yume1.5 отличается от других моделей генерации видео?

Yume1.5 специализируется на интерактивной генерации в ответ на управление WASD, а не на создании видео из текстовых описаний.

Yume1.5: развертывание и тест производительности на A100 | 12 FPS

Когда нейросеть становится игровым движком

Представьте: вы нажимаете W на клавиатуре, и нейросеть генерирует следующий кадр виртуального мира в реальном времени. Не предзаписанную анимацию, а совершенно новую сцену, основанную на вашем движении. Это не научная фантастика 2023 года - это Yume1.5, который сегодня, 20 января 2026 года, показывает 12 FPS на NVIDIA A100.

Yume1.5 - это диффузионная модель от Shanghai AI Laboratory и Fudan University, которая создает бесконечные видео-миры в ответ на управление WASD. Архитектура основана на U-Net с 1.4 миллиардами параметров, обученной на 600 000 видео-клипов.

Цифры, которые заставляют пересмотреть представление о реальном времени

12 кадров в секунду. Звучит скромно? Только если вы не знаете контекста. Предыдущие модели для интерактивных миров вроде Genie от Google выдавали 0.17 FPS на том же железе. Yume1.5 быстрее в 70 раз. Это разница между демо-роликом на конференции и чем-то, что можно реально использовать.

Модель	FPS на A100	Параметры	Разрешение
Yume1.5	12.0	1.4B	256×256
Genie (Google)	0.17	11B	128×128
GAIA-1 (Wayve)	~0.5	9B	256×256
WORLDMEM	~1.0	7B	128×128

Секрет не в магии, а в архитектурных решениях. Yume1.5 использует кэширование скрытых состояний - каждый следующий кадр генерируется не с нуля, а на основе предыдущего. Плюс оптимизированный инференс через TensorRT и половинную точность (FP16).

Что внутри репозитория: не только код, но и обещание весов

GitHub-репозиторий Yume1.5 выглядит как типичный проект из академической лаборатории: чисто, документация на английском, но с китайскими комментариями в коде. Главное - в README.md черным по белому: "Weights will be released soon."

💡

Китайские исследовательские группы стали заметно быстрее выкладывать веса моделей. Если в 2024 году ждать приходилось месяцами, то сейчас промежуток между paper и релизом сократился до недель. Возможно, влияние открытых моделей вроде GLM-4.7 Flash заставило всех ускориться.

Архитектурно Yume1.5 построен вокруг трех компонентов:

Видео-энкодер, который превращает исходный кадр в латентное представление
Диффузионный U-Net с временным вниманием (temporal attention)
Модуль предсказания действий, который маппит нажатия WASD в скрытое пространство

Развертывание на A100: где подводные камни

Официальный скрипт запуска выглядит просто:

python demo_interactive.py \
  --config configs/yume1.5.yaml \
  --ckpt path/to/checkpoint.pt \
  --device cuda:0 \
  --resolution 256

Но реальность сложнее. Первая проблема - память. Даже на A100 с 80GB VRAM модель съедает 45GB в FP16. Вторая проблема - зависимость от специфичных версий библиотек. PyTorch 2.4+ обязателен, потому что в более старых версиях нет оптимизаций для группового внимания в временной dimension.

Не пытайтесь запускать на картах с менее чем 48GB VRAM. Даже с gradient checkpointing и самыми агрессивными оптимизациями памяти не хватит. Это не Gemma 3 270M, которую можно запустить на чем угодно.

12 FPS - это много или мало?

Для игрового движка - катастрофически мало. Для нейросетевой генерации видео из текстового описания - невероятно много. Yume1.5 находится где-то посередине.

Практический тест: запускаем демо, нажимаем W (вперед). Первый кадр генерируется 1.2 секунды - долго. Но следующие кадры идут с интервалом 83 миллисекунды. Это и есть те самые 12 FPS. Модель прогревает кэш, и дальше работает значительно быстрее.

Качество? На 256×256 выглядит как игра середины 2000-х. Но консистентность впечатляет - при движении "вперед" сцена плавно разворачивается, объекты не появляются из ниоткуда, перспектива сохраняется. Это не случайный набор кадров, а последовательное повествование.

Кому это нужно сегодня, 20 января 2026?

Трем категориям людей:

Разработчикам прототипов игр - быстро сгенерировать локацию для тестирования механик
Создателям контента для AR/VR - бесконечные фоны без ручного моделирования
Исследователям в reinforcement learning - симулятор среды, который генерируется на лету

Но есть нюанс: Yume1.5 не понимает семантику. Вы не можете сказать "иди к красной двери" - только нажимать WASD. Это отличает его от более комплексных систем вроде EXAONE MoE, которые сочетают языковое понимание с генерацией.

Что будет дальше? Прогноз на 2026 год

К концу 2026 года мы увидим две вещи:

Модели размером с Yume1.5, но работающие в 4K и 60 FPS на H100
Гибридные системы, где LLM вроде Qwen2.5 планирует маршрут, а Yume-like модель рендерит

Китайские лаборатории явно делают ставку на прикладные, а не фундаментальные исследования. Вместо того чтобы гнаться за параметрами как в Sovereign AI Project, они оптимизируют уже существующие архитектуры под конкретные задачи.

Совет напоследок: если у вас есть доступ к A100 или H100 - клонируйте репозиторий сегодня. Когда выйдут веса (а они выйдут, судя по тенденции), вы будете среди первых, кто протестировал технологию, которая через год станет стандартом для прототипирования виртуальных миров.

А если нет - следите за бенчмарками. Цифра 12 FPS скоро станет точкой отсчета, от которой будут отталкиваться все следующие работы.

Yume1.5: 12 FPS на A100 и бесконечные миры с WASD. Китайский ответ Genie