Адский кранч: 492 гигабайта веса — это шутка?
Вы когда-нибудь смотрели на спецификации модели и думали: «Да ну, 492 GB — это же целый дата-центр!»? Я тоже так думал, пока не собрал свой монстр на Threadripper 7980X и RTX 5090. GLM 5.2 от Zhipu AI — это не просто очередная LLM. Это 492 миллиарда параметров (да, я не ошибся) в исходной точности, и даже после квантования до 4-bit она весит под 250 GB. Но я смог её запустить локально. И сейчас расскажу, как.
Дисклеймер: это не для слабонервных. Вам понадобятся как минимум Threadripper 7000-й серии, 256+ GB RAM и RTX 5090. Если у вас Ryzen 5 — просто почитайте, будет интересно.
Почему вообще кто-то хочет запускать 492B модель дома? Потому что облачные инстансы с A100 стоят как самолёт, а конфиденциальность данных — не пустой звук. GLM 5.2 выдаёт качество на уровне GPT-4.5 в некоторых бенчмарках, а в китайском и мультиязычном контексте — просто зверь. Но чтобы его приручить, придётся попотеть.
Железо: как собрать зверя, который не сгорит
Итак, что вам понадобится из реального харда. Не верьте маркетингу: одной RTX 5090 с 32 GB VRAM недостаточно. Нужно сочетание CPU с огромным количеством ядер и каналов памяти.
- CPU: Threadripper 7980X (64 ядра/128 потоков) или 7970X (32 ядра). Чем больше — тем лучше, потому что offloading на CPU будет основным.
- RAM: минимум 256 GB DDR5-5600 (лучше 512 GB). Подойдут 4×64 GB или 8×32 GB — обязательно ECC? Не обязательно, но в идеале. Наши тесты на TRX50 с 512 GB показали стабильность.
- GPU: RTX 5090 Founder's Edition или партнёрки с 32 GB VRAM. Не пытайтесь запустить всё на GPU — влезет только 10-20% слоёв.
- Хранилище: NVMe SSD 2TB+ (лучше два в RAID 0 для скорости). Модель весит 250 GB даже после квантизации.
- Блок питания: 1200W+ 80+ Platinum. Threadripper + 5090 жрут под 700W под нагрузкой.
Софт: cmake, llama.cpp и Unsloth — связка, которая работает
Теперь самое мясо. Запуск будет через llama.cpp (последняя версия на 25.06.2026 — v3457) с поддержкой CUDA и OpenBLAS. Но обычный llama.cpp не умеет загружать модель в 492B параметров — надо квантовать. Используем Unsloth quant, он даёт лучшее качество на низких битрейтах.
1Сборка llama.cpp с блэкджеком и CUDA
git clone https://github.com/ggerganov/llama.cpp
cd llama.cpp
mkdir build && cd build
cmake .. -DLLAMA_CUDA=ON -DLLAMA_BLAS=ON -DLLAMA_BLAS_VENDOR=OpenBLAS -DCMAKE_BUILD_TYPE=Release
make -j$(nproc)
🔥 Типичная ошибка: забыть флаг -DLLAMA_CUDA=ON. Тогда всё упадёт на CPU — скорость будет 0.3 токена/сек. Проверьте, что CUDA Toolkit 12.8 установлен и nvcc виден.
2Квантование через Unsloth GGUF
Сначала скачайте оригинальные веса GLM 5.2 (FP16) с Hugging Face — они весят 984 GB, так что готовьтесь качать сутки. Затем конвертируем в GGUF и применяем Unsloth quant до Q4_K_M (4-bit). Это даст размер ~250 GB (492/2).
python3 convert.py /path/to/glm-5.2-fp16 --outfile glm-5.2-fp16.gguf --outtype f16
./quantize --allow-requantize glm-5.2-fp16.gguf glm-5.2-q4_k_m.gguf q4_k_m
q4_k_m как компромисс между размером и качеством. Для домашнего использования — оптимально.3Запуск с offloading на GPU
Теперь самое интересное — распределяем слои между GPU и CPU. RTX 5090 может взять на себя ~15-20% слоёв (примерно 30 из 150). Остальное ляжет на Threadripper. Запускаем так:
./main -m glm-5.2-q4_k_m.gguf \
-ngl 30 \
-t 32 \
-c 4096 \
--numa \
--mlock \
-p "Расскажи, как собрать ПК для LLM"
Флаг --numa — критичен для Threadripper с двумя CCD. Без него будет просадка производительности на 40% из-за перекрёстных обращений к памяти. Подробнее про настройку NUMA можно прочитать в статье про inference-сервер на Threadripper.
Скорость генерации: на 32 ядрах CPU + 5090 получаем ~4-6 токенов/сек для первого токена, затем 1-2 токена/сек. Для интерактивного чата — терпимо. Для пакетной обработки — ок.
Грабли, на которые я наступил (и вы, скорее всего, тоже)
- Out of Memory при загрузке: модель 250 GB не влезает в 256 GB RAM? На самом деле, llama.cpp загружает всю модель в RAM, потом часть выгружает на GPU. Проверьте, что у вас свободно хотя бы 280 GB (с учётом контекста и системных нужд). Если 256 GB — не хватит. Берите 512 GB.
- Падение с CUDA error: RTX 5090 требует драйвер 570+. Проверьте
nvidia-smi. - Медленный первый токен: из-за того, что CPU подгружает веса в GPU. Используйте
--mlock, чтобы заблокировать страницы в RAM. - Шум кулеров: Threadripper 7980X под нагрузкой греется до 95°C. Без водянки не обойтись. Мы ставили Arctic Liquid Freezer III 420 — работает.
Кстати, есть альтернатива: если у вас есть возможность собрать систему с несколькими GPU, прочитайте наш обзор 7 видеокарт на AM5 для LLM — там про P2P и коммутаторы. С 2×RTX 5090 можно загрузить уже 40% слоёв, скорость будет выше.
А что если у меня нет Threadripper? FAQ для бедных
| Вопрос | Ответ |
|---|---|
| Можно ли на Ryzen 9 9950X? | Да, но будет медленно. 16 ядер vs 64 — разница в 3-4 раза по скорости генерации. RAM можно до 192 GB, но модель 250 GB влезет только с swap на SSD — адски медленно. |
| А если взять 4×3090? | Влезет больше слоёв, но скорость будет ограничена PCIe линками. Threadripper + 3 GPU — хороший компромисс, читайте сравнение Threadripper + 4×3090 Ti vs Xeon + 4×5070 Ti. |
| Как уменьшить размер ещё сильнее? | Используйте Q2_K — получите ~130 GB, но качество упадёт. Unsloth quant позволяет и такое, но я бы не рекомендовал для серьёзных задач. |
| Можно ли запустить на AMD GPU? | Теоретически да, через ROCm, но на практике — куча багов. Лучше прочитайте как собрать 128 GB VRAM на Radeon — там альтернативный подход. |
Совет, который вы не найдёте в документации
После того как вы запустили модель, обязательно настройте привязку потоков к физическим ядрам. Threadripper 7980X имеет 8 CCD по 8 ядер. Если не указать --numa и не размазать потоки по CCD, половина кэша будет простаивать. Но есть хитрость: используйте переменную окружения GOMP_CPU_AFFINITY или OMP_PLACES=cores. Я получил прирост 15% только за счёт этого. Не поленитесь поэкспериментировать.
И последнее: не верьте рекламным обещаниям «запустите GPT-4 дома». GLM 5.2 — это реально крутая модель, но 4-6 токенов/сек — это не для продакшена. Это для экспериментов, для конфиденциальных данных, для фана. Если вам нужна скорость — берите облако. Если хотите контроля — стройте такого монстра.
А если вы всё ещё сомневаетесь, загляните в нашу подборку 100 самых популярных сборок на Hugging Face — там реальные конфиги энтузиастов. Спойлер: Threadripper там встречается чаще, чем вы думаете.