Zhipu AI выпустила GLM-Image. Это не просто очередная модель для генерации картинок. Это гибридный монстр: авторегрессионный генератор на 9 миллиардов параметров и диффузионный декодер на 7 миллиардов. Звучит как инженерный перебор? Возможно. Но результат заставляет присмотреться.

Что склеили в Z.AI?

Архитектура GLM-Image — это два в одном. Сначала идет большой языковой модель GLM-4 на 9B параметров. Она понимает ваш текст. Потом ее вывод передается в диффузионный трансформер (DiT) на 7B, который уже рисует пиксели.

💡

Прямые Pull Request в репозитории huggingface/diffusers и transformers означают одно — скоро эту модель можно будет запустить одной строкой кода. Не нужно собирать свой пайплайн.

Зачем такое усложнение? Авторегрессия отлично справляется с пониманием сложных промптов, а диффузия — с созданием качественных изображений. GLM-Image пытается взять лучшее от обоих миров. (Хотя, честно, тренировать такую штуку — ад для инженеров).

Что она умеет делать с картинками?

Формально — все то же, что и конкуренты. Но есть нюансы.

Text-to-Image: Даете описание — получаете изображение. «Космонавт, кормящий единорога на фоне Сатурна». Стандартно.
Image-to-Image: Загружаете фото и говорите «сделай закат». Модель перерисовывает изображение в соответствии с инструкцией. Это уже интереснее.
Редактирование: Можете указать область для изменения. Хотите поменять прическу на портрете? Теоретически — да.

На практике качество image-to-image сильно зависит от исходного изображения. Модель может «не понять» контекст и нарисовать ерунду. Не ждите чудес от первой же попытки.

На фоне других: кто круче?

GLM-Image — не первая и не последняя модель. Давайте сравним ее с прямыми конкурентами.

Модель	Архитектура	Text-to-Image	Image-to-Image	Особенность
GLM-Image	Гибрид (GLM-4 + DiT)	Да	Да	Единая модель для всего
Qwen-Image-2512	Диффузионная	Да	Ограниченно	Качество в стиле Midjourney
Qwen-Image-Layered	Слоеная генерация	Да	Нет	Работа со слоями как в Photoshop

Главный козырь GLM-Image — универсальность. Одна модель вместо двух или трех. Но за это приходится платить сложностью и, возможно, скоростью. GLM-4.7, кстати, уже показал, что китайские модели могут бить западные. Здесь та же история.

Кому это вообще нужно?

Эта модель — не для всех. Если вы генерируете котиков раз в неделю, вам хватит и простого сервиса.

GLM-Image — инструмент для тех, кто работает с изображениями постоянно и хочет контроля.

Дизайнеры: Быстрое создание концептов и мокапов. Закинул скетч — получил готовую картинку.
Разработчики игр: Генерация текстур, концепт-артов, даже спрайтов. Особенно если интегрировать модель в пайплайн.
Контент-мейкеры: Создание уникальных иллюстраций для статей, соцсетей. Image-to-image позволяет «дорисовывать» свои же фото.
Исследователи: Сама архитектура — плодородное поле для экспериментов. Хотите понять, как гибриды работают изнутри? Базовые технологии лучше изучить заранее.

А что с железом? Запустится ли у меня?

Модель на 16 миллиардов параметров в полной версии. Это не шутка. Для инференса потребуется серьезная видеокарта с большим объемом памяти. Или использование квантованных версий.

Zhipu AI, скорее всего, предложит модель через свой API (как они это сделали с GLM-4.7). Это разумный путь для большинства. Запускать такое на своем железе — удел энтузиастов с серверными RTX 4090 или A100.

Совет: не гонитесь за самой большой версией. Дождитесь появления квантованных моделей на Hugging Face. Они могут работать даже на потребительских картах.

Итог: стоит ли за ней следить?

GLM-Image — важный эксперимент. Он показывает, что будущее генеративных моделей может быть не за чистыми диффузиями или авторегрессиями, а за их причудливыми помесями.

Прямо сейчас она вряд ли перерисует Qwen-Image-2512 по качеству картинок. Но ее универсальность и глубокая интеграция с языковой моделью открывают другие возможности. Например, сложное редактирование по текстовому описанию.

Если вы устали таскать данные между разными нейросетями (одна понимает текст, другая рисует), присмотритесь к гибридам. GLM-Image — первый серьезный звоночек. Дальше будет только интереснее.

GLM-Image: Китайский гибрид, который генерирует и правит картинки