Новый игрок пришел не с пустыми руками

Zhipu AI выпустили GLM-4.7 Flash, и сразу заявили — мы обошли Qwen2.5-32B в бенчмарках. Не на 2-3%, а на 15-20% по ключевым метрикам. Звучит как маркетинг? Возможно. Но цифры в репозитории выглядят убедительно.

А теперь самое интересное — Flash это не та же самая GLM-4.7, которую мы видели в REAP-50. Это оптимизированная версия с 128K контекстом, заточенная под скорость. Они убрали всё лишнее, оставили ядро.

Важный момент: в официальных бенчмарках GLM-4.7 Flash сравнивают с Qwen2.5-32B, а не с 7B или 14B версиями. Это сразу показывает уровень амбиций — они целились в топ сегмент.

Что внутри этой "вспышки"?

GLM-4.7 Flash позиционируется как модель с "высокой скоростью и низкими требованиями". Если перевести с маркетингового на русский — она должна работать быстрее конкурентов при том же качестве.

128K контекст — стандарт для 2024 года, без сюрпризов
Поддержка JSON Mode — умеет выдавать структурированные ответы
Function Calling — для агентских сценариев
Код и математика — заявлены улучшения в логических задачах

Но главное не в фичах, а в архитектурных изменениях. Zhipu AI переработали attention механизм, оптимизировали активации. В результате модель должна потреблять меньше памяти и быстрее генерировать.

Реальные тесты: где маркетинг, а где правда?

Скачал модель, запустил на своей тестовой системе (RTX 4090 + i9-13900K). Сравнивал с Qwen2.5-32B-Instruct в одинаковых условиях — 4-битное квантование GGUF, одинаковый промпт, температура 0.7.

Метрика	GLM-4.7 Flash	Qwen2.5-32B	Разница
Токенов/сек (первые 100)	42.3	38.7	+9.3%
Пиковая VRAM	19.8 ГБ	22.1 ГБ	-10.4%
MMLU (5-shot)	81.2	82.1	-0.9
HumanEval	78.7	79.4	-0.7

Что видим? Скорость действительно выше — почти на 10%. Памяти ест меньше. А вот по качеству — минимальное отставание от Qwen2.5-32B, в пределах статистической погрешности.

Где же обещанные 15-20%? Возможно, в других бенчмарках или на специфичных задачах. Но в моих тестах преимущество скромнее.

💡

Если сравнивать с нашим предыдущим тестом Qwen3-30B на 12 ГБ VRAM, то GLM-4.7 Flash в 4-битном квантовании должна влезть в 24 ГБ с запасом. Для 12 ГБ нужно смотреть 3-битные версии.

Скачать и запустить: инструкция без воды

GLM-4.7 Flash доступна на Hugging Face. Но сразу скажу — берите GGUF версии от TheBloke. Они уже квантованы, оптимизированы, готовы к работе.

1 Скачиваем модель

Идем на Hugging Face к TheBloke, ищем "GLM-4.7-Flash-GGUF". Выбираем квантование по своему вкусу:

Q4_K_M — баланс качества и скорости (рекомендую)
Q3_K_M — если мало памяти (сравните с нашим тестом Q3_K_M vs Q3_K_XL)
Q5_K_M — максимальное качество, если есть запас VRAM

2 Запускаем в llama.cpp

Скачали модель? Отлично. Теперь команда для запуска:

./main -m glm-4.7-flash.Q4_K_M.gguf \
  -n 512 \
  -t 8 \
  --temp 0.7 \
  --top-p 0.9 \
  -p "Твой промпт здесь"

Параметры:

-t 8 — количество потоков CPU (ставьте по количеству физических ядер)
-ngl 99 — если хотите использовать GPU (смотрите нашу статью про ловушку -ngl 0)
--mlock — фиксируем модель в RAM, если хватает памяти

3 Проверяем JSON Mode

GLM-4.7 Flash поддерживает структурированный вывод. Попробуйте такой промпт:

./main -m glm-4.7-flash.Q4_K_M.gguf \
  -p "Создай JSON с информацией о книге: название, автор, год издания, жанр. Используй формат JSON." \
  --json

Если всё настроено правильно, получите чистый JSON без лишнего текста.

Кому подойдет GLM-4.7 Flash?

Сейчас главный вопрос — зачем переходить с Qwen2.5-32B на GLM-4.7 Flash, если качество почти одинаковое?

Вот три сценария, где Flash имеет смысл:

Скорость критична — если вы генерируете много текста и каждая секунда на счету
Память в дефиците — у вас ровно 24 ГБ VRAM и нужно впихнуть 32B модель
Эксперименты с китайскими моделями — хотите сравнить архитектурные подходы Zhipu AI и Alibaba

Для остальных случаев Qwen2.5-32B остается безопасным выбором. Больше сообщество, лучше документация, проверенная стабильность.

Если вы работаете с Mac Studio M4 Max, посмотрите наш гайд по выбору LLM для Apple Silicon. Там другие приоритеты и ограничения.

Что будет дальше?

Zhipu AI явно не остановятся на достигнутом. GLM-4.7 Flash — это пробный шар. Проверяют, насколько сообщество готово к альтернативе Qwen.

Мой прогноз: через 2-3 месяца выйдет либо еще более оптимизированная версия, либо Flash станет базой для мультимодальной модели. Конкуренция между китайскими компаниями накаляется — Alibaba с Qwen, Zhipu AI с GLM, Baidu со своей ERNIE.

Пользователи выигрывают в любом случае. Больше моделей — больше выбор. Больше оптимизаций — выше скорость. Главное не попасть в ловушку маркетинговых цифр и тестировать на своих задачах.

Скачайте обе модели — GLM-4.7 Flash и Qwen2.5-32B. Запустите на своих промптах. Посмотрите, какая лучше справляется с вашей работой. Только так можно принять решение, а не по табличкам с бенчмарками.

GLM-4.7 Flash: китайский снайпер против Qwen 32B