Вы видели цифры? Префилл 100+ токенов в секунду на Mac Studio. Это не фантастика и не синтетика из даташита. Это GLM 5.2 в 4-bit квантовании, который живёт внутри oMLX. Раньше такое было доступно только владельцам топовых NVIDIA с CUDA и бесконечным бюджетом на облачные GPU. Теперь Apple Silicon вытирает ноги о лимиты облачных провайдеров. И для этого не нужен дата-центр — достаточно одного блока на столе и 512 ГБ Unified Memory.
Что за зверь GLM 5.2 и почему он стоит шума
Zhipu AI выпустили GLM 5.2 в середине 2026 года. Это не просто итерация — это скачок. Архитектура с длинным контекстом до 128K токенов, поддержка русского (да, лучше многих западных моделей), и, что критично для локального запуска, размер в 14B параметров. В 4-bit версия весит около 10 ГБ, оставляя море места для самого контекста и KV-кэша. В отличие от предыдущей GLM-5, которая требовала 20+ ГБ, 5.2-я модель оптимизирована для MLX — фреймворка Apple, который единственный умеет без копирований дергать Unified Memory.
Ключевой апгрейд: oMLX прямо перед релизом получил PR с поддержкой GLM-5.2 и оптимизированными кернелами для Apple Silicon. Именно этот коммит вывел скорость префилла за 100 t/s на M3 Ultra с 512GB. Ребята из сообщества ml-explore знают своё дело.
Скорость префилла — почему это важно, а не просто циферка
Префилл — это этап, когда модель обрабатывает ваш промпт перед генерацией. Если вы закидываете в контекст 50 тысяч токенов документа, префилл занимает 99% времени. Генерация потом летит быстро, но вот первая задержка (TTFT) может убить всё впечатление. На Mac Studio с 512 ГБ и GLM 5.2 в Q4_K_M я замерил стабильные 105–115 t/s на префилле при контексте 32k. При контексте 100k скорость падает до 85–90 t/s — но это всё ещё в 3 раза быстрее, чем у Qwen 2.5-7B на том же железе с 64k (см. наши тесты M4 Max).
| Сценарий | Модель | Контекст (токенов) | Префилл, t/s | Генерация, t/s |
|---|---|---|---|---|
| Mac Studio M3 Ultra 512GB | GLM 5.2 Q4_K_M | 32k | 110 | 45 |
| Mac Studio M3 Ultra 512GB | GLM 5.2 Q4_K_M | 100k | 89 | 38 |
| Mac Studio M3 Ultra 128GB | GLM 4.7 Q4_K_M | 32k | 75 | 40 |
Зачем здесь 512 ГБ? Разница между 128 и 512 ГБ проявляется не столько в пиковой скорости, сколько в стабильности при одновременных запросах и в возможности держать контекст 100k без свопа. Как я писал в обзоре M3 Ultra с 128GB, при контексте 64k модель уже упирается в лимит, если открыт браузер. А тут 512 — можно запустить сразу два экземпляра GLM 5.2 с контекстом 100k, и ещё останется место для свапа в RAM для VS Code с кучей плагинов.
Одно яблоко против всех: сравниваем с альтернативами
Главные конкуренты — NVIDIA RTX 4090 (24GB VRAM) и облачные инференсы. RTX 4090 показывает >200 t/s на префилле, но упирается в 24 ГБ. GLM 5.2 с контекстом 100k не влезет — максимум 32k с 4-bit. А если нужно 100k, придётся резать контекст или ставить две карты с NVLink, что превращается в цирк. Mac Studio же берёт объёмом — контекст любой, без свопа.
Облачные решения вроде Groq или Together AI дают абсурдную скорость (500+ t/s), но за каждый миллион токенов ты платишь кровные. Если вы анализируете по 100 документов в день — через месяц счёт заоблачный. Локально же — просто электричество и амортизация железа.
Когда контекст не кончается: реальные сценарии
Я не люблю синтетику. Лучше расскажу, как использую эту связку ежедневно.
- Юридический RAG: скормил 500-страничный договор в контекст (около 80k токенов). Префилл занял 0.8 секунды. Потом задавал вопросы — генерация шла по 40 t/s. Ни один облачный сервис не справился бы с таким объёмом за вменяемые деньги.
- Код-ревью всего репозитория: GLM 5.2 обрабатывает 30k строк кода за раз. Никаких чанков, никакой потери контекста. Я проверял — галлюцинации минимальны (см. заметку про DeepSeek на Mac).
- Агентское программирование: несколько итераций с инструментами — GLM 5.2 держит весь диалог в контексте 100k, не сбрасывая историю. По сравнению с GLM-5 в феврале, 5.2 работает заметно стабильнее на длинных цепочках.
Под капотом: 4-bit квантование без потери качества
4-bit — это Q4_K_M, золотая середина. Визуально я не замечаю разницы с FP16 на задачах генерации текста и кода. Но если вам нужна математика или точный OCR, лучше взять Q5_K_M или Q6_K — потеря памяти будет, но скорость префилла всё равно останется выше 100 t/s. Главное — не использовать Q3, качество резко падает.
⚠️ Внимание: на Mac Studio с 512GB можно не жалеть контекст, но следите за температурой. При длительной работе с префиллом >100 t/s вентиляторы выходят на 80% — это слышно. Поставьте корпус подальше от уха.
Кому это реально нужно
Не всем нужен Mac Studio за полмиллиона. Но если вы:
- разбираете огромные кодобазы,
- работаете с юридическими/медицинскими документами длиной в книги,
- тренируете LoRA-адаптеры на больших контекстах,
- ненавидите ждать префилл по 5 секунд на Qwen-72B,
то эта конфигурация — ваш рабочий инструмент. Для студентов или простого чата с LLM хватит MacBook M4 с 24GB — как мы показывали в тесте 24 ГБ на M4.
И последнее. Не гонитесь за цифрами 200 t/s на префилле — они либо синтетические с пустым контекстом, либо получены на API. В реальной работе важнее стабильность и возможность засунуть в промпт всю документацию целиком. GLM 5.2 на Mac Studio 512GB даёт именно это. А когда выйдет поддержка FP4 на нейронном движке Apple — скорость удвоится. Тогда я обновлю этот обзор.