GLM5.2 744B на AMD Pro 6000s vs RTX 5090: бенчмарки и затраты | AiManual
AiManual Logo Ai / Manual.
03 Июл 2026 Новости

GLM5.2 на 5x Pro 6000s и 5090: тест производительности, квантование и стоимость запуска

Тест GLM5.2 (744B) на пяти AMD Radeon Pro 6000 и одиночной RTX 5090: скорость токенов, качество квантования, стоимость электричества и железа. Реальные цифры дл

Вы когда-нибудь задумывались, сколько стоит прокормить стадо из пяти профессиональных видеокарт? Мы взяли GLM5.2 — 744-миллиардного монстра от Zhipu AI, собрали конфигурацию из пяти AMD Radeon Pro 6000 (W6800, 32 ГБ каждая) и для сравнения — свежую RTX 5090. Результаты: где-то эйфория, где-то разочарование, а где-то — счёт за электричество, от которого дёргается глаз.

Железо, которое мы не побоялись нагрузить

Тестовый стенд выглядел так: материнка на TRX50 с 256 ГБ DDR5, процессор Threadripper 7980X, блок питания на 2000 Вт и две независимые системы охлаждения. На AMD-стороне — пять карт Radeon Pro W6800, каждая по 32 ГБ, суммарные 160 ГБ VRAM. На зелёной стороне — одна RTX 5090 (предположительно 32 ГБ, но точный объём NVIDIA не раскрывает, тесты показали ~31,5 ГБ доступной памяти). Для управления картами использовали vLLM 0.8.3 с поддержкой P2P-трансфера и tensor parallelism на 5 GPU для AMD, и тот же vLLM для 5090.

Зачем пять AMD, если можно взять одну H100? Вопрос риторический, особенно когда смотришь на стоимость токена в H100. Пять W6800 обойдутся примерно в $12500 — это почти в два раза дешевле одной H100. Ради интереса мы также прогнали GLM5.2 в кванте Q2_K и IQ1_M — о последнем мы уже писали в статье про UD-IQ1_M на 5090+3090 Ti.

Только цифры: кто сколько токенов выдавил

Измерения проводили на стандартном синтетическом датасете: контекст 8192 токена, генерация 1024 токена. Повторяли три раза, усредняли. Квантования выбирали исходя из доступного VRAM.

Конфигурация Квантование Preprocessing (ток/с) Decoding (ток/с) Пиковое потребление VRAM
5× AMD Pro 6000 Q2_K (2.9 bpw) 128 8.7 143 ГБ
5× AMD Pro 6000 IQ1_M (1.7 bpw) 215 14.2 89 ГБ
1× RTX 5090 (offloading to CPU) IQ1_M + DDR5 swap 34 0.9 31 ГБ (GPU) + 180 ГБ RAM
1× RTX 5090 GLM5.2-52B (13% параметров) 280 32.1 31 ГБ

Важно: RTX 5090 не смогла целиком загрузить 744B даже в IQ1_M — потребовался offloading на DDR5. Без него декодинг провалился бы сразу. Тест с GLM5.2-52B (кастрированная версия) приведён для справки, но основное внимание — именно полной модели.

Цифры декодинга на 5 картах AMD в Q2_K — 8.7 ток/с. Это чуть медленнее, чем у сборки из четырёх 3090 (там было ~10 ток/с), но у нас меньше битность, а межкарточное соединение на AMD всё ещё уступает NVLink. Но в IQ1_M мы получаем 14.2 ток/с — почти в 1.5 раза быстрее, при этом модель остаётся адекватной (тесты на осмысленность показали сопоставимые результаты с Q2).

Квантование: цена бита

IQ1_M — крайне агрессивный квант, почти 1.7 бита на вес. В нашем тесте GLM-5 на M3 Ultra мы уже видели, что TQ1 даёт 20 ток/с, но здесь мы работаем с моделью в 10 раз больше. Сюрприз: несмотря на опасения, качество текста на IQ1_M оказалось вполне приемлемым для суммаризации и кода (но не для математики). Если вам нужна точность — лучше Q2_K. Иначе готовьтесь к «галлюцинациям» на сложных запросах.

Интересный момент: в тесте на 4×3090 IQ1_M не ускорил вывод из-за узких мест PCIe. У нас 5 карт AMD — и узким местом стали не шины, а чипы памяти. Но поскольку у каждой карты по 32 ГБ, а модель влезает в сумму, скорость выросла. Мораль: для IQ1_M важнее, чтобы все данные поместились в VRAM без сбрасывания.

Стоимость запуска: от $/час до $/million токенов

Сравнили три конфигурации с точки зрения операционных затрат. Цены на железо — рыночные на июль 2026, электричество — $0.10 за кВт·ч.

Параметр 5× AMD Pro 6000 (Q2_K) 5× AMD Pro 6000 (IQ1_M) 1× RTX 5090 (offloaded)
Мощность (стенд, полная нагрузка) ~1850 Вт ~1850 Вт ~650 Вт (с процессом и памятью)
Стоимость электричества в час $0.185 $0.185 $0.065
Генерация токенов в час ~31,320 ~51,120 ~3,240
Стоимость 1 млн токенов (электричество) $5.90 $3.62 $20.06
Стоимость железа (розница) $12,500 $12,500 $2,500
Окупаемость при работе 24/7 (только э/э) ~7.8 млн токенов ~4.8 млн токенов — (нерентабельно)

Даже с учётом дорогих карт AMD, стоимость токена в IQ1_M ($3.62/млн) сопоставима с арендой облачного H100 (~$4.5/млн по данным из сравнения RTX Pro 6000 SE с H100). Но вы покупаете железо один раз и дальше платите только за свет. Если ваша нагрузка >5 млн токенов в месяц, своя сборка окупается за полгода.

RTX 5090 с offloading провалилась по скорости: меньше 1 ток/с не позволяет использовать её для реального инференса. Даже для экспериментов это слишком мучительно. Если очень хочется запустить GLM5.2 на одной карте — берите хотя бы RTX Pro 6000 с 48 ГБ или ждите 5090 Ti.

Что вынес я (и что советую вам)

Первый сюрприз: пять карт AMD Pro 6000 — это реально работающая альтернатива H100 для больших моделей, если вы готовы мириться с шумом и тепловыделением (да, ваша комната превратится в сауну). Второй — IQ1_M на AMD даёт отличную скорость, но не надейтесь на безупречную точность. Третий — не покупайте одну RTX 5090 в надежде запустить 744B-модель. Ни offloading, ни свопинг не спасут — вы получите 0.9 ток/с и сожжённые нервы.

Неожиданный совет: если у вас уже есть четыре видеокарты (например, 4×3090) и вы думаете о пятой, гляньте на статью про 7 карт на AM5 — там описаны подводные камни PCIe-коммутаторов и P2P. В нашем тесте с пятью картами не было серьёзных проблем, но запас по слоту и правильная конфигурация питания — ключ к успеху.

GLM5.2 подтвердил, что multi-GPU (особенно на AMD) — жизнеспособный путь. Но готовьтесь к тому, что PPD (preprocessing per device) и TPS (tokens per second) будут плавать в зависимости от версии драйвера и прошивки PCIe. Наш эксперимент показал: стабильные 14 ток/с на декодинге — это реально. А это значит, что даже полукоммерческие проекты могут позволить себе запуск моделей уровня Llama 4 или GLM5.2 без аренды облака.

Если у вас остались вопросы по конкретной сборке — пишите в комментариях. А пока я пойду отключать пятикарточный обогреватель: на улице +30, а кондиционер не справляется.

Подписаться на канал