Зачем нам китайский ответ Llama?

Июнь 2026. Zhipu AI выкатили GLM 5.2 — модель с открытыми весами, которая уже доступна в Ollama и на Hugging Face, причем без регистрации с верификацией по паспорту. Звучит как спасение для параноиков, уставших платить за каждый токен. Но так ли хороша модель, как шумиха вокруг неё? Я прогнал её на своем старичке RTX 3090, сравнил с Qwen2.5 и Llama 3.1, а заодно попробовал облачный API — делюсь впечатлениями.

Сразу спойлер: GLM 5.2 умеет то, что другие модели делают плохо — смешивать языки в одном запросе без потери смысла. Но обо всём по порядку.

Первое знакомство: что под капотом?

GLM 5.2 — это 130-миллиардная (130B) модель (есть и 7B, и 72B версии, но флагман — 130B). Архитектура — модифицированный Transformer с attention с разделением на группы (GQA) и роторными позициями (RoPE). Главная фишка — native multilingual understanding: она не просто переводит, а держит контекст на смеси русского, английского и китайского так, будто это один язык. Плюс — 128k токенов контекста (32k в 7B).

На момент релиза (май 2026) модель обогнала Llama 3.1-70B по тестам MMLU и HumanEval, но уступает Qwen2.5-72B в математике. Однако для локального запуска важнее то, что она отлично съеживается квантованием.

Локальный ад? Запускаем через Ollama

Если вы уже знакомы с базовыми шагами локального запуска, то с GLM 5.2 проблем не возникнет. Модель официально поддерживается в Ollama начиная с версии 0.6.5. Просто тяните тег:

ollama pull glm5.2:7b-q4_K_M

Для 72B версии нужен Q4 или Q3 — иначе 24GB VRAM не хватит. Полный гид по Ollama прилагается. Важный нюанс: автоматические квантизации от Ollama (q4_K_M и q5_K_M) работают отлично, но если хотите выжать максимум — берите оригинальные кванты от сообщества с Hugging Face (формат GGUF).

💡

На практике GLM 5.2 7B в q4_K_M на RTX 3060 (12GB) выдает 25–30 токенов / сек. 72B версия на 48GB — около 5 токенов / сек. Нормально.

Облачный вариант: когда качать лень

Не хотите забивать диск? Zhipu предложили облачный API, полностью совместимый с OpenAI-форматом (да, как у GLM-4.7, про который мы уже писали раньше). Миграция с GPT или Claude — два дня работы. Стоимость: $0.15 за 1M входных токенов (модель 130B). Это дешевле GPT-4o, но дороже Llama 3.1-70B от Groq и Together AI. Зато приватность: сервера в Китае, так что для корпораций с жёсткими требованиями к данным — не вариант, а вот для стартапов — норм.

Сравнительный спарринг: с кем драться?

Я прогнал GLM 5.2 72B (Q4) против Llama 3.1-70B (Q4) и Qwen2.5-72B (Q4) на одном железе (2x RTX 3090). Вот что вышло:

Критерий	GLM 5.2	Llama 3.1	Qwen2.5
Русский + английский	Превосходно	Хорошо	Хорошо
Код (HumanEval)	77.4	76.1	75.8
Математика (MATH)	43.1	44.9	46.2
Макс. контекст	128k	128k	32k

Вывод: если вам нужен длинный контекст и смешанные языки — GLM 5.2 ваш выбор. Если чисто английский код — Llama 3.1 всё ещё силён.

Кому это реально нужно?

Выделю три сценария:

Приватный переводчик документов — GLM 5.2 умеет держать стиль и не забывать термины. Пример: перевести контракт на 10 страниц с русского на китайский и английский — на выходе всё согласовано. Локальные LLM против традиционного перевода — тест показал, что GLM 5.2 выигрывает контекстную точность.
Локальные AI-агенты — если вы строите агента для работы с документами, GLM 5.2 7B с инструментальным вызовом (function calling) справляется не хуже Mistral 7B, о котором мы писали в статье про автоматизацию заметок.
Гибридная архитектура — запускать 7B локально для частых задач, а сложные запросы отправлять на облачный 130B через тот же API. Более подробно про гибрид мы разбирали отдельно.

Грязные секреты квантования

Не буду врать: на Q3_K_M модель заметно тупеет — теряет до 10% по MMLU. Q4_K_M — золотая середина. Q5_K_M уже требует 40GB для 72B, но качество почти идентично FP16. Советую начать с Q4_K_M, а если карта позволяет — Q5. На 7B версии разница между Q4 и Q5 незаметна, так что берите Q4 без сомнений.

Важно: не используйте Q2 на 130B! Это dead end — модель начинает галлюцинировать на пустом месте.

Эпилог: совет, а не вывод

GLM 5.2 — это не революция, а эволюция. Но эволюция с умным выбором: если вам нужен длинный контекст и кросс-языковая работа — это, пожалуй, лучшая open-weight модель на рынке в июне 2026. Лично я перевел на неё свой переводческий пайплайн на локальном сервере. Советую начать с 7B версии на Ollama — даже на видеокарте с 6GB она работает сносно. А когда поймете, что нужно больше мощи — поднимите руки к облаку.

P.S. Не пытайтесь запустить 130B на одной видеокарте с 16GB. Я пытался. Сгорел предохранитель (шутка, но в квантованном Q2 — реально зависнет).

Подписаться на канал

GLM 5.2: Игрушка для гиков или рабочий инструмент? Запускаем локально и через облако