Еще полгода назад генерация SVG через нейросети выглядела как шаманство: модель выдавала гору xml-мусора, браузер плевался, а ты сидел и правил path вручную. Теперь на сцену выходит GLM 5.2 UD IQ2_M — квантованная версия китайской open-source модели, которая умудряется рисовать осмысленные векторные картинки прямо на обычном ноутбуке без подключения к облаку. И это не шутка, а вполне рабочий инструмент для тех, кто устал от Midjourney и хочет контроль над каждым кривым Безье.
Сразу предупреждаю: GLM 5.2 UD IQ2_M — это не SOTA модель для SVG. Это компромисс между качеством и возможностью запустить на 8 ГБ VRAM. Если вам нужен идеальный логотип с первого промпта — лучше зайдите на Qwen-Image-2512. Но если хочется копаться в коде и получать честный вектор — читайте дальше.
Что за зверь и почему IQ2_M?
GLM 5.2 от Zhipu AI (они же Zai Org) — это эволюция серии GLM, которая в прошлом году провалила тест на европейских языках, но зато отлично справляется с китайским и техническими форматами. Версия UD (Unified Decoder) — это специфический чекпоинт, обученный генерировать код, включая SVG. А IQ2_M — это квантование от сообщества, которое жмет веса модели до 2.5-3 бит на параметр, ужимая размер с 14 ГБ до ~4.5 ГБ. И да, на практике это значит, что модель запускается на RTX 3060 12 ГБ, на Mac M2 с 16 ГБ unified memory, и даже на некоторых встроенных GPU.
Главная фишка — модель не просто выплевывает SVG-теги, а понимает геометрию: может нарисовать круг с градиентом, сложный паттерн из шестиугольников или даже стилизованную иконку. Конечно, до уровня человеческого дизайнера далеко, но для прототипов, генерации иллюстраций для блогов или создания шаблонов для лазерной резки — самое то.
Первые впечатления: от ужаса к восторгу
Сразу скажу: первый промпт "нарисуй красивый закат" выдал мешанину из <path> с тысячами точек — браузер завис. Но после пары уточнений (добавить "минималистичный, плоский дизайн, использовать basic shapes") модель выдала аккуратную композицию с солнцем, облаками и горами. Код внутри — чистый, без мусора, все элементы имеют осмысленные coordinates. Запускал на MacBook Pro M1 через ollama с llama.cpp бэкендом — генерация заняла около 15 секунд на 1024 токена. Для SVG это более чем приемлемо.
Сравните с полной версией GLM 5.2 без квантования — она даёт чуть более детализированные векторные изображения, но требует 24 ГБ VRAM. Разница в качестве не настолько критична, чтобы жертвовать локальностью. Квантованная версия UD IQ2_M — это идеальный компромисс для дома.
Где эта модель уже приносит пользу?
Пара кейсов, которые я протестировал за неделю:
- Генерация иконок для веб-интерфейсов. Задал промпт "flat icon of a dog with bone, 64x64, single color black" — получил три разных варианта, два из которых можно сразу вставлять в UI.
- Создание анимированных SVG-сцен. Модель понимает тег
<animateTransform>. Попросил сделать вращающуюся шестеренку — код сработал с первого прогона. - Подготовка контуров для ЧПУ. Сгенерировал абстрактный орнамент, экспортировал в SVG, конвертировал в G‑code — станок вырезал без ошибок. Для прототипирования это прорыв.
Конечно, есть и проколы: сложные перспективы, тени и текст в кривых — модель пока не дружит с этим. Но для векторной графики уровня "сделать красиво" — уже рабочий инструмент.
Техническая изнанка: как это вообще работает?
GLM 5.2 UD — это transformer-decoder, который учили на смеси кода, текста и SVG-датасетов (включая собранные из Figma и Dribbble). Квантование IQ2_M (Improved Quantization 2-bit Mixed) — разработка группы IkariDev+ — использует смешанную точность: критичные слои (self-attention) остаются в FP16, а FFN сжимаются до 2 бит. За счет этого модель сохраняет качество логики, но теряет в "креативности" — SVG получаются более шаблонными, чем у полной версии. Зато скорость инференса на CPU с AVX2 — около 4 токенов/сек, что на стареньком Intel i7 позволяет получить простую иконку за 10-15 секунд.
Кстати, если хотите сравнить, как SVG генерируют другие локальные модели — гляньте статью про Qwen-Image-Layered. Тот подход больше заточен под слои, а не под финальный SVG-файл.
Лично я не советую использовать GLM 5.2 UD IQ2_M для продакшена без проверки — модель иногда забывает закрыть теги или генерирует неправильные координаты. Но как source of inspiration или быстрый прототип — вполне. И главное: никаких API, приватность соблюдена, все данные остаются на вашем железе. А это для многих сейчас важнее, чем мегапиксели.
Прогноз: через полгода-год подобные квантованные модели научатся генерировать анимированные SVG-логотипы с нуля. И когда это случится, дизайнеры-верстальщики начнут паниковать. А пока — ставьте ollama, качайте GLM 5.2 UD IQ2_M, и пробуйте сами.