GLM 5.2 GGUF на Threadripper и RTX 5090: гайд по запуску 492B модели | AiManual
AiManual Logo Ai / Manual.
25 Июн 2026 Гайд

Запуск GLM 5.2 GGUF на consumer железе: 492GB модель на Threadripper и RTX 5090

Как запустить гигантскую модель GLM 5.2 (492B параметров) на домашнем ПК с Threadripper и RTX 5090. GGUF, Unsloth квантование, offloading, cmake и реальные бенч

Реклама
cliv1

Адский кранч: 492 гигабайта веса — это шутка?

Вы когда-нибудь смотрели на спецификации модели и думали: «Да ну, 492 GB — это же целый дата-центр!»? Я тоже так думал, пока не собрал свой монстр на Threadripper 7980X и RTX 5090. GLM 5.2 от Zhipu AI — это не просто очередная LLM. Это 492 миллиарда параметров (да, я не ошибся) в исходной точности, и даже после квантования до 4-bit она весит под 250 GB. Но я смог её запустить локально. И сейчас расскажу, как.

Дисклеймер: это не для слабонервных. Вам понадобятся как минимум Threadripper 7000-й серии, 256+ GB RAM и RTX 5090. Если у вас Ryzen 5 — просто почитайте, будет интересно.

Почему вообще кто-то хочет запускать 492B модель дома? Потому что облачные инстансы с A100 стоят как самолёт, а конфиденциальность данных — не пустой звук. GLM 5.2 выдаёт качество на уровне GPT-4.5 в некоторых бенчмарках, а в китайском и мультиязычном контексте — просто зверь. Но чтобы его приручить, придётся попотеть.

Железо: как собрать зверя, который не сгорит

Итак, что вам понадобится из реального харда. Не верьте маркетингу: одной RTX 5090 с 32 GB VRAM недостаточно. Нужно сочетание CPU с огромным количеством ядер и каналов памяти.

  • CPU: Threadripper 7980X (64 ядра/128 потоков) или 7970X (32 ядра). Чем больше — тем лучше, потому что offloading на CPU будет основным.
  • RAM: минимум 256 GB DDR5-5600 (лучше 512 GB). Подойдут 4×64 GB или 8×32 GB — обязательно ECC? Не обязательно, но в идеале. Наши тесты на TRX50 с 512 GB показали стабильность.
  • GPU: RTX 5090 Founder's Edition или партнёрки с 32 GB VRAM. Не пытайтесь запустить всё на GPU — влезет только 10-20% слоёв.
  • Хранилище: NVMe SSD 2TB+ (лучше два в RAID 0 для скорости). Модель весит 250 GB даже после квантизации.
  • Блок питания: 1200W+ 80+ Platinum. Threadripper + 5090 жрут под 700W под нагрузкой.
💡
Если вы собираете подобную станцию, советую прочитать наш гайд по оптимизации AI-станции на Threadripper — там детально про охлаждение памяти и твики BIOS.

Софт: cmake, llama.cpp и Unsloth — связка, которая работает

Теперь самое мясо. Запуск будет через llama.cpp (последняя версия на 25.06.2026 — v3457) с поддержкой CUDA и OpenBLAS. Но обычный llama.cpp не умеет загружать модель в 492B параметров — надо квантовать. Используем Unsloth quant, он даёт лучшее качество на низких битрейтах.

1Сборка llama.cpp с блэкджеком и CUDA

git clone https://github.com/ggerganov/llama.cpp
cd llama.cpp
mkdir build && cd build
cmake .. -DLLAMA_CUDA=ON -DLLAMA_BLAS=ON -DLLAMA_BLAS_VENDOR=OpenBLAS -DCMAKE_BUILD_TYPE=Release
make -j$(nproc)

🔥 Типичная ошибка: забыть флаг -DLLAMA_CUDA=ON. Тогда всё упадёт на CPU — скорость будет 0.3 токена/сек. Проверьте, что CUDA Toolkit 12.8 установлен и nvcc виден.

2Квантование через Unsloth GGUF

Сначала скачайте оригинальные веса GLM 5.2 (FP16) с Hugging Face — они весят 984 GB, так что готовьтесь качать сутки. Затем конвертируем в GGUF и применяем Unsloth quant до Q4_K_M (4-bit). Это даст размер ~250 GB (492/2).

python3 convert.py /path/to/glm-5.2-fp16 --outfile glm-5.2-fp16.gguf --outtype f16

./quantize --allow-requantize glm-5.2-fp16.gguf glm-5.2-q4_k_m.gguf q4_k_m
💡
Unsloth quant — это не просто стандартные типы llama.cpp. Он даёт лучшую перплексию на низких битрейтах. Мы используем q4_k_m как компромисс между размером и качеством. Для домашнего использования — оптимально.

3Запуск с offloading на GPU

Теперь самое интересное — распределяем слои между GPU и CPU. RTX 5090 может взять на себя ~15-20% слоёв (примерно 30 из 150). Остальное ляжет на Threadripper. Запускаем так:

./main -m glm-5.2-q4_k_m.gguf \
  -ngl 30 \
  -t 32 \
  -c 4096 \
  --numa \
  --mlock \
  -p "Расскажи, как собрать ПК для LLM"

Флаг --numa — критичен для Threadripper с двумя CCD. Без него будет просадка производительности на 40% из-за перекрёстных обращений к памяти. Подробнее про настройку NUMA можно прочитать в статье про inference-сервер на Threadripper.

Скорость генерации: на 32 ядрах CPU + 5090 получаем ~4-6 токенов/сек для первого токена, затем 1-2 токена/сек. Для интерактивного чата — терпимо. Для пакетной обработки — ок.

Грабли, на которые я наступил (и вы, скорее всего, тоже)

  • Out of Memory при загрузке: модель 250 GB не влезает в 256 GB RAM? На самом деле, llama.cpp загружает всю модель в RAM, потом часть выгружает на GPU. Проверьте, что у вас свободно хотя бы 280 GB (с учётом контекста и системных нужд). Если 256 GB — не хватит. Берите 512 GB.
  • Падение с CUDA error: RTX 5090 требует драйвер 570+. Проверьте nvidia-smi.
  • Медленный первый токен: из-за того, что CPU подгружает веса в GPU. Используйте --mlock, чтобы заблокировать страницы в RAM.
  • Шум кулеров: Threadripper 7980X под нагрузкой греется до 95°C. Без водянки не обойтись. Мы ставили Arctic Liquid Freezer III 420 — работает.

Кстати, есть альтернатива: если у вас есть возможность собрать систему с несколькими GPU, прочитайте наш обзор 7 видеокарт на AM5 для LLM — там про P2P и коммутаторы. С 2×RTX 5090 можно загрузить уже 40% слоёв, скорость будет выше.

А что если у меня нет Threadripper? FAQ для бедных

ВопросОтвет
Можно ли на Ryzen 9 9950X?Да, но будет медленно. 16 ядер vs 64 — разница в 3-4 раза по скорости генерации. RAM можно до 192 GB, но модель 250 GB влезет только с swap на SSD — адски медленно.
А если взять 4×3090?Влезет больше слоёв, но скорость будет ограничена PCIe линками. Threadripper + 3 GPU — хороший компромисс, читайте сравнение Threadripper + 4×3090 Ti vs Xeon + 4×5070 Ti.
Как уменьшить размер ещё сильнее?Используйте Q2_K — получите ~130 GB, но качество упадёт. Unsloth quant позволяет и такое, но я бы не рекомендовал для серьёзных задач.
Можно ли запустить на AMD GPU?Теоретически да, через ROCm, но на практике — куча багов. Лучше прочитайте как собрать 128 GB VRAM на Radeon — там альтернативный подход.

Совет, который вы не найдёте в документации

После того как вы запустили модель, обязательно настройте привязку потоков к физическим ядрам. Threadripper 7980X имеет 8 CCD по 8 ядер. Если не указать --numa и не размазать потоки по CCD, половина кэша будет простаивать. Но есть хитрость: используйте переменную окружения GOMP_CPU_AFFINITY или OMP_PLACES=cores. Я получил прирост 15% только за счёт этого. Не поленитесь поэкспериментировать.

И последнее: не верьте рекламным обещаниям «запустите GPT-4 дома». GLM 5.2 — это реально крутая модель, но 4-6 токенов/сек — это не для продакшена. Это для экспериментов, для конфиденциальных данных, для фана. Если вам нужна скорость — берите облако. Если хотите контроля — стройте такого монстра.

А если вы всё ещё сомневаетесь, загляните в нашу подборку 100 самых популярных сборок на Hugging Face — там реальные конфиги энтузиастов. Спойлер: Threadripper там встречается чаще, чем вы думаете.

Подписаться на канал