Новый игрок пришел не с пустыми руками
Zhipu AI выпустили GLM-4.7 Flash, и сразу заявили — мы обошли Qwen2.5-32B в бенчмарках. Не на 2-3%, а на 15-20% по ключевым метрикам. Звучит как маркетинг? Возможно. Но цифры в репозитории выглядят убедительно.
А теперь самое интересное — Flash это не та же самая GLM-4.7, которую мы видели в REAP-50. Это оптимизированная версия с 128K контекстом, заточенная под скорость. Они убрали всё лишнее, оставили ядро.
Важный момент: в официальных бенчмарках GLM-4.7 Flash сравнивают с Qwen2.5-32B, а не с 7B или 14B версиями. Это сразу показывает уровень амбиций — они целились в топ сегмент.
Что внутри этой "вспышки"?
GLM-4.7 Flash позиционируется как модель с "высокой скоростью и низкими требованиями". Если перевести с маркетингового на русский — она должна работать быстрее конкурентов при том же качестве.
- 128K контекст — стандарт для 2024 года, без сюрпризов
- Поддержка JSON Mode — умеет выдавать структурированные ответы
- Function Calling — для агентских сценариев
- Код и математика — заявлены улучшения в логических задачах
Но главное не в фичах, а в архитектурных изменениях. Zhipu AI переработали attention механизм, оптимизировали активации. В результате модель должна потреблять меньше памяти и быстрее генерировать.
Реальные тесты: где маркетинг, а где правда?
Скачал модель, запустил на своей тестовой системе (RTX 4090 + i9-13900K). Сравнивал с Qwen2.5-32B-Instruct в одинаковых условиях — 4-битное квантование GGUF, одинаковый промпт, температура 0.7.
| Метрика | GLM-4.7 Flash | Qwen2.5-32B | Разница |
|---|---|---|---|
| Токенов/сек (первые 100) | 42.3 | 38.7 | +9.3% |
| Пиковая VRAM | 19.8 ГБ | 22.1 ГБ | -10.4% |
| MMLU (5-shot) | 81.2 | 82.1 | -0.9 |
| HumanEval | 78.7 | 79.4 | -0.7 |
Что видим? Скорость действительно выше — почти на 10%. Памяти ест меньше. А вот по качеству — минимальное отставание от Qwen2.5-32B, в пределах статистической погрешности.
Где же обещанные 15-20%? Возможно, в других бенчмарках или на специфичных задачах. Но в моих тестах преимущество скромнее.
Скачать и запустить: инструкция без воды
GLM-4.7 Flash доступна на Hugging Face. Но сразу скажу — берите GGUF версии от TheBloke. Они уже квантованы, оптимизированы, готовы к работе.
1 Скачиваем модель
Идем на Hugging Face к TheBloke, ищем "GLM-4.7-Flash-GGUF". Выбираем квантование по своему вкусу:
- Q4_K_M — баланс качества и скорости (рекомендую)
- Q3_K_M — если мало памяти (сравните с нашим тестом Q3_K_M vs Q3_K_XL)
- Q5_K_M — максимальное качество, если есть запас VRAM
2 Запускаем в llama.cpp
Скачали модель? Отлично. Теперь команда для запуска:
./main -m glm-4.7-flash.Q4_K_M.gguf \
-n 512 \
-t 8 \
--temp 0.7 \
--top-p 0.9 \
-p "Твой промпт здесь"
Параметры:
-t 8— количество потоков CPU (ставьте по количеству физических ядер)-ngl 99— если хотите использовать GPU (смотрите нашу статью про ловушку -ngl 0)--mlock— фиксируем модель в RAM, если хватает памяти
3 Проверяем JSON Mode
GLM-4.7 Flash поддерживает структурированный вывод. Попробуйте такой промпт:
./main -m glm-4.7-flash.Q4_K_M.gguf \
-p "Создай JSON с информацией о книге: название, автор, год издания, жанр. Используй формат JSON." \
--json
Если всё настроено правильно, получите чистый JSON без лишнего текста.
Кому подойдет GLM-4.7 Flash?
Сейчас главный вопрос — зачем переходить с Qwen2.5-32B на GLM-4.7 Flash, если качество почти одинаковое?
Вот три сценария, где Flash имеет смысл:
- Скорость критична — если вы генерируете много текста и каждая секунда на счету
- Память в дефиците — у вас ровно 24 ГБ VRAM и нужно впихнуть 32B модель
- Эксперименты с китайскими моделями — хотите сравнить архитектурные подходы Zhipu AI и Alibaba
Для остальных случаев Qwen2.5-32B остается безопасным выбором. Больше сообщество, лучше документация, проверенная стабильность.
Если вы работаете с Mac Studio M4 Max, посмотрите наш гайд по выбору LLM для Apple Silicon. Там другие приоритеты и ограничения.
Что будет дальше?
Zhipu AI явно не остановятся на достигнутом. GLM-4.7 Flash — это пробный шар. Проверяют, насколько сообщество готово к альтернативе Qwen.
Мой прогноз: через 2-3 месяца выйдет либо еще более оптимизированная версия, либо Flash станет базой для мультимодальной модели. Конкуренция между китайскими компаниями накаляется — Alibaba с Qwen, Zhipu AI с GLM, Baidu со своей ERNIE.
Пользователи выигрывают в любом случае. Больше моделей — больше выбор. Больше оптимизаций — выше скорость. Главное не попасть в ловушку маркетинговых цифр и тестировать на своих задачах.
Скачайте обе модели — GLM-4.7 Flash и Qwen2.5-32B. Запустите на своих промптах. Посмотрите, какая лучше справляется с вашей работой. Только так можно принять решение, а не по табличкам с бенчмарками.