GLM 5.2: генерация видео в open-source модели Zhipu AI | AiManual
AiManual Logo Ai / Manual.
17 Июн 2026 Новости

GLM 5.2 научился снимать кино? Китайская open-source модель теперь генерирует видео

Китайская Zhipu AI выпустила GLM 5.2 — теперь модель сама создаёт видео по тексту. Что это значит для рынка open-source LLM и стоит ли верить хайпу?

Реклама
cliv2

Абсурд? Нет, реальность

Представьте: вы пишете промпт «Кот в очках читает газету на пляже», а модель возвращает вам MP4-файл. Нет, это не Sora и не Runway. Это GLM 5.2 от китайской Zhipu AI — модель, которую ещё полгода назад мы знали только как текстового монстра кодинга с MIT-лицензией. Теперь она умеет генерировать видео. И не просто умеет, а делает это с открытыми весами.

Если вы следили за серией наших статей про GLM 5.2 как монстра кодинга и тест на Pac-Man, то знаете: Zhipu AI любят сюрпризы. Но видео — это неожиданный поворот даже для них.

Как языковая модель научилась двигать картинку?

В теории — никак. GLM 5.2 — это Transformer-архитектура с 744 миллиардами параметров, оптимизированная под текст и код. Но в реальности Zhipu AI добавили дополнительный модуль: визуальный токенизатор, который преобразует скрытые состояния модели в последовательность кадров. Грубо говоря, модель «думает» текстом, а потом рендерит видео через легковесный диффузионный декодер.

Это не отдельная видеомодель — это расширение самой LLM. Весь pipeline работает на одном GPU (A100 80GB) и занимает около 30 секунд на генерацию 10-секундного ролика в разрешении 720p.

Zhipu опубликовали демонстрацию: промпт «Белый медведь играет на электрогитаре в пустыне» — и модель выдаёт ролик с движущимся медведем, мимикой и синхронизацией лап со струнами. Конечно, качество далеко до Sora или Kling — артефакты, дёрганые движения, странная физика. Но это open-source. Вы можете скачать веса, дообучить на своих данных и запустить локално. Для энтузиастов это подарок.

Но зачем LLM видео?

Рынок китайских AI-моделей перегрет. GLM 5.x уже лидирует в бенчмарках вроде Extended NYT Connections, но чтобы выделиться среди сотен аналогов, нужен вау-эффект. Видеогенерация — идеальный ход. Особенно в стиле «мы дали LLM глаза и руки».

Но есть и прагматичная сторона: GLM 5.2 с видеовыводом может генерировать короткие обучающие ролики, анимации для презентаций, даже простые спецэффекты. Для стартапов, которые не хотят платить за проприетарные API, это шанс сэкономить.

Важно: модель пока сырая. В бенчмарках качества видео (FVD, IS) она проигрывает Midjourney Video и Kling. Но open-source сообщество уже начало форкать репозиторий и дообучать на своих датасетах (например, Gaussian Splatting для 3D-сцен).

Что дальше?

На момент 17 июня 2026 года GLM 5.2 доступна на Hugging Face с лицензией MIT. Это значит, вы можете клонировать, модифицировать, продавать. Следующая версия, скорее всего, будет поддерживать длинные видео (до 1 минуты) и многокадровую согласованность.

Zhipu AI не остановятся — они уже дразнят «мультимодальным агентством»: когда одна модель пишет сценарий, рисует раскадровку и рендерит финальное видео в одном цикле. Если это сработает, рынок AI-видео ждёт полная перестройка.

Хотите подробностей по архитектуре? Читайте наш разбор 744B гиганта и дистилляции. А если сомневаетесь в качестве — погуглите «GLM 5.2 провалил тест»: мы писали, как предыдущая версия провалилась на европейских языках. История повторяется? Поживём — увидим.

Подписаться на канал