Как GLM 5.2 генерирует видео, если это языковая модель?

Zhipu AI добавили визуальный токенизатор, который конвертирует скрытые состояния текстовой модели в последовательность кадров через лёгкий диффузионный декодер.

Качество видео сравнимо с Sora или Kling?

Пока нет — есть артефакты и дёрганья, но это open-source, и сообщество уже дообучает модель.

Где скачать GLM 5.2?

На Hugging Face, лицензия MIT.

GLM 5.2: генерация видео в open-source модели Zhipu AI

Абсурд? Нет, реальность

Представьте: вы пишете промпт «Кот в очках читает газету на пляже», а модель возвращает вам MP4-файл. Нет, это не Sora и не Runway. Это GLM 5.2 от китайской Zhipu AI — модель, которую ещё полгода назад мы знали только как текстового монстра кодинга с MIT-лицензией. Теперь она умеет генерировать видео. И не просто умеет, а делает это с открытыми весами.

Если вы следили за серией наших статей про GLM 5.2 как монстра кодинга и тест на Pac-Man, то знаете: Zhipu AI любят сюрпризы. Но видео — это неожиданный поворот даже для них.

Как языковая модель научилась двигать картинку?

В теории — никак. GLM 5.2 — это Transformer-архитектура с 744 миллиардами параметров, оптимизированная под текст и код. Но в реальности Zhipu AI добавили дополнительный модуль: визуальный токенизатор, который преобразует скрытые состояния модели в последовательность кадров. Грубо говоря, модель «думает» текстом, а потом рендерит видео через легковесный диффузионный декодер.

Это не отдельная видеомодель — это расширение самой LLM. Весь pipeline работает на одном GPU (A100 80GB) и занимает около 30 секунд на генерацию 10-секундного ролика в разрешении 720p.

Zhipu опубликовали демонстрацию: промпт «Белый медведь играет на электрогитаре в пустыне» — и модель выдаёт ролик с движущимся медведем, мимикой и синхронизацией лап со струнами. Конечно, качество далеко до Sora или Kling — артефакты, дёрганые движения, странная физика. Но это open-source. Вы можете скачать веса, дообучить на своих данных и запустить локално. Для энтузиастов это подарок.

Но зачем LLM видео?

Рынок китайских AI-моделей перегрет. GLM 5.x уже лидирует в бенчмарках вроде Extended NYT Connections, но чтобы выделиться среди сотен аналогов, нужен вау-эффект. Видеогенерация — идеальный ход. Особенно в стиле «мы дали LLM глаза и руки».

Но есть и прагматичная сторона: GLM 5.2 с видеовыводом может генерировать короткие обучающие ролики, анимации для презентаций, даже простые спецэффекты. Для стартапов, которые не хотят платить за проприетарные API, это шанс сэкономить.

Важно: модель пока сырая. В бенчмарках качества видео (FVD, IS) она проигрывает Midjourney Video и Kling. Но open-source сообщество уже начало форкать репозиторий и дообучать на своих датасетах (например, Gaussian Splatting для 3D-сцен).

Что дальше?

На момент 17 июня 2026 года GLM 5.2 доступна на Hugging Face с лицензией MIT. Это значит, вы можете клонировать, модифицировать, продавать. Следующая версия, скорее всего, будет поддерживать длинные видео (до 1 минуты) и многокадровую согласованность.

Zhipu AI не остановятся — они уже дразнят «мультимодальным агентством»: когда одна модель пишет сценарий, рисует раскадровку и рендерит финальное видео в одном цикле. Если это сработает, рынок AI-видео ждёт полная перестройка.

Хотите подробностей по архитектуре? Читайте наш разбор 744B гиганта и дистилляции. А если сомневаетесь в качестве — погуглите «GLM 5.2 провалил тест»: мы писали, как предыдущая версия провалилась на европейских языках. История повторяется? Поживём — увидим.

Подписаться на канал

GLM 5.2 научился снимать кино? Китайская open-source модель теперь генерирует видео

Абсурд? Нет, реальность

Как языковая модель научилась двигать картинку?

Но зачем LLM видео?

Что дальше?

Подписывайтесь на наш канал!