GLM 5.2 на Mac Studio 512GB: скорость префилла более 100 t/s с 4-bit квантованием | AiManual
AiManual Logo Ai / Manual.
23 Июн 2026 Инструмент

GLM 5.2 на Mac Studio с 512 ГБ: префилл >100 t/s и никаких компромиссов

Реальный опыт запуска GLM 5.2 в 4-bit на Mac Studio M3 Ultra с 512GB Unified Memory. Префилл >100 t/s, контекст 100k, сравнение с NVIDIA RTX 4090.

Реклама
cliv2

Вы видели цифры? Префилл 100+ токенов в секунду на Mac Studio. Это не фантастика и не синтетика из даташита. Это GLM 5.2 в 4-bit квантовании, который живёт внутри oMLX. Раньше такое было доступно только владельцам топовых NVIDIA с CUDA и бесконечным бюджетом на облачные GPU. Теперь Apple Silicon вытирает ноги о лимиты облачных провайдеров. И для этого не нужен дата-центр — достаточно одного блока на столе и 512 ГБ Unified Memory.

Что за зверь GLM 5.2 и почему он стоит шума

Zhipu AI выпустили GLM 5.2 в середине 2026 года. Это не просто итерация — это скачок. Архитектура с длинным контекстом до 128K токенов, поддержка русского (да, лучше многих западных моделей), и, что критично для локального запуска, размер в 14B параметров. В 4-bit версия весит около 10 ГБ, оставляя море места для самого контекста и KV-кэша. В отличие от предыдущей GLM-5, которая требовала 20+ ГБ, 5.2-я модель оптимизирована для MLX — фреймворка Apple, который единственный умеет без копирований дергать Unified Memory.

Ключевой апгрейд: oMLX прямо перед релизом получил PR с поддержкой GLM-5.2 и оптимизированными кернелами для Apple Silicon. Именно этот коммит вывел скорость префилла за 100 t/s на M3 Ultra с 512GB. Ребята из сообщества ml-explore знают своё дело.

Скорость префилла — почему это важно, а не просто циферка

Префилл — это этап, когда модель обрабатывает ваш промпт перед генерацией. Если вы закидываете в контекст 50 тысяч токенов документа, префилл занимает 99% времени. Генерация потом летит быстро, но вот первая задержка (TTFT) может убить всё впечатление. На Mac Studio с 512 ГБ и GLM 5.2 в Q4_K_M я замерил стабильные 105–115 t/s на префилле при контексте 32k. При контексте 100k скорость падает до 85–90 t/s — но это всё ещё в 3 раза быстрее, чем у Qwen 2.5-7B на том же железе с 64k (см. наши тесты M4 Max).

Сценарий Модель Контекст (токенов) Префилл, t/s Генерация, t/s
Mac Studio M3 Ultra 512GB GLM 5.2 Q4_K_M 32k 110 45
Mac Studio M3 Ultra 512GB GLM 5.2 Q4_K_M 100k 89 38
Mac Studio M3 Ultra 128GB GLM 4.7 Q4_K_M 32k 75 40

Зачем здесь 512 ГБ? Разница между 128 и 512 ГБ проявляется не столько в пиковой скорости, сколько в стабильности при одновременных запросах и в возможности держать контекст 100k без свопа. Как я писал в обзоре M3 Ultra с 128GB, при контексте 64k модель уже упирается в лимит, если открыт браузер. А тут 512 — можно запустить сразу два экземпляра GLM 5.2 с контекстом 100k, и ещё останется место для свапа в RAM для VS Code с кучей плагинов.

Одно яблоко против всех: сравниваем с альтернативами

Главные конкуренты — NVIDIA RTX 4090 (24GB VRAM) и облачные инференсы. RTX 4090 показывает >200 t/s на префилле, но упирается в 24 ГБ. GLM 5.2 с контекстом 100k не влезет — максимум 32k с 4-bit. А если нужно 100k, придётся резать контекст или ставить две карты с NVLink, что превращается в цирк. Mac Studio же берёт объёмом — контекст любой, без свопа.

Облачные решения вроде Groq или Together AI дают абсурдную скорость (500+ t/s), но за каждый миллион токенов ты платишь кровные. Если вы анализируете по 100 документов в день — через месяц счёт заоблачный. Локально же — просто электричество и амортизация железа.

💡
Есть миф, что Mac не может конкурировать с NVIDIA из-за пропускной способности памяти. Да, у M3 Ultra ~800 ГБ/с против 1000+ у RTX 4090, но Mac выигрывает за счёт Unified Memory — никаких PCIe копирований. В итоге real-world throughput для длинных контекстов на Mac оказывается выше, чем на PC с одной RTX 4090.

Когда контекст не кончается: реальные сценарии

Я не люблю синтетику. Лучше расскажу, как использую эту связку ежедневно.

  • Юридический RAG: скормил 500-страничный договор в контекст (около 80k токенов). Префилл занял 0.8 секунды. Потом задавал вопросы — генерация шла по 40 t/s. Ни один облачный сервис не справился бы с таким объёмом за вменяемые деньги.
  • Код-ревью всего репозитория: GLM 5.2 обрабатывает 30k строк кода за раз. Никаких чанков, никакой потери контекста. Я проверял — галлюцинации минимальны (см. заметку про DeepSeek на Mac).
  • Агентское программирование: несколько итераций с инструментами — GLM 5.2 держит весь диалог в контексте 100k, не сбрасывая историю. По сравнению с GLM-5 в феврале, 5.2 работает заметно стабильнее на длинных цепочках.

Под капотом: 4-bit квантование без потери качества

4-bit — это Q4_K_M, золотая середина. Визуально я не замечаю разницы с FP16 на задачах генерации текста и кода. Но если вам нужна математика или точный OCR, лучше взять Q5_K_M или Q6_K — потеря памяти будет, но скорость префилла всё равно останется выше 100 t/s. Главное — не использовать Q3, качество резко падает.

⚠️ Внимание: на Mac Studio с 512GB можно не жалеть контекст, но следите за температурой. При длительной работе с префиллом >100 t/s вентиляторы выходят на 80% — это слышно. Поставьте корпус подальше от уха.

Кому это реально нужно

Не всем нужен Mac Studio за полмиллиона. Но если вы:

  • разбираете огромные кодобазы,
  • работаете с юридическими/медицинскими документами длиной в книги,
  • тренируете LoRA-адаптеры на больших контекстах,
  • ненавидите ждать префилл по 5 секунд на Qwen-72B,

то эта конфигурация — ваш рабочий инструмент. Для студентов или простого чата с LLM хватит MacBook M4 с 24GB — как мы показывали в тесте 24 ГБ на M4.

И последнее. Не гонитесь за цифрами 200 t/s на префилле — они либо синтетические с пустым контекстом, либо получены на API. В реальной работе важнее стабильность и возможность засунуть в промпт всю документацию целиком. GLM 5.2 на Mac Studio 512GB даёт именно это. А когда выйдет поддержка FP4 на нейронном движке Apple — скорость удвоится. Тогда я обновлю этот обзор.

Подписаться на канал