Сколько энергии потребляет 5 карт AMD Radeon Pro 6000 при запуске GLM5.2?

Стенд с пятью картами, процессором и памятью в полной нагрузке потребляет около 1850 Вт. Это примерно $0.185 в час при тарифе $0.10 за кВт·ч.

Можно ли запустить GLM5.2 744B на одной RTX 5090?

Только с offloading на системную память (DDR5). Без offloading модель не помещается из-за лимита VRAM (~31.5 ГБ). С offloading скорость декодинга составляет менее 1 токена в секунду, что практически непригодно для использования.

Какое квантование даёт лучший баланс скорости и качества для GLM5.2 на 5 AMD?

IQ1_M (1.7 bpw) даёт 14.2 ток/с на декодинге, приемлемое качество для кода и суммаризации, но возможны ошибки в математике. Q2_K (2.9 bpw) — 8.7 ток/с, но значительно точнее. Выбор зависит от задачи.

GLM5.2 744B на AMD Pro 6000s vs RTX 5090: бенчмарки и затраты

Вы когда-нибудь задумывались, сколько стоит прокормить стадо из пяти профессиональных видеокарт? Мы взяли GLM5.2 — 744-миллиардного монстра от Zhipu AI, собрали конфигурацию из пяти AMD Radeon Pro 6000 (W6800, 32 ГБ каждая) и для сравнения — свежую RTX 5090. Результаты: где-то эйфория, где-то разочарование, а где-то — счёт за электричество, от которого дёргается глаз.

Железо, которое мы не побоялись нагрузить

Тестовый стенд выглядел так: материнка на TRX50 с 256 ГБ DDR5, процессор Threadripper 7980X, блок питания на 2000 Вт и две независимые системы охлаждения. На AMD-стороне — пять карт Radeon Pro W6800, каждая по 32 ГБ, суммарные 160 ГБ VRAM. На зелёной стороне — одна RTX 5090 (предположительно 32 ГБ, но точный объём NVIDIA не раскрывает, тесты показали ~31,5 ГБ доступной памяти). Для управления картами использовали vLLM 0.8.3 с поддержкой P2P-трансфера и tensor parallelism на 5 GPU для AMD, и тот же vLLM для 5090.

Зачем пять AMD, если можно взять одну H100? Вопрос риторический, особенно когда смотришь на стоимость токена в H100. Пять W6800 обойдутся примерно в $12500 — это почти в два раза дешевле одной H100. Ради интереса мы также прогнали GLM5.2 в кванте Q2_K и IQ1_M — о последнем мы уже писали в статье про UD-IQ1_M на 5090+3090 Ti.

Только цифры: кто сколько токенов выдавил

Измерения проводили на стандартном синтетическом датасете: контекст 8192 токена, генерация 1024 токена. Повторяли три раза, усредняли. Квантования выбирали исходя из доступного VRAM.

Конфигурация	Квантование	Preprocessing (ток/с)	Decoding (ток/с)	Пиковое потребление VRAM
5× AMD Pro 6000	Q2_K (2.9 bpw)	128	8.7	143 ГБ
5× AMD Pro 6000	IQ1_M (1.7 bpw)	215	14.2	89 ГБ
1× RTX 5090 (offloading to CPU)	IQ1_M + DDR5 swap	34	0.9	31 ГБ (GPU) + 180 ГБ RAM
1× RTX 5090	GLM5.2-52B (13% параметров)	280	32.1	31 ГБ

Важно: RTX 5090 не смогла целиком загрузить 744B даже в IQ1_M — потребовался offloading на DDR5. Без него декодинг провалился бы сразу. Тест с GLM5.2-52B (кастрированная версия) приведён для справки, но основное внимание — именно полной модели.

Цифры декодинга на 5 картах AMD в Q2_K — 8.7 ток/с. Это чуть медленнее, чем у сборки из четырёх 3090 (там было ~10 ток/с), но у нас меньше битность, а межкарточное соединение на AMD всё ещё уступает NVLink. Но в IQ1_M мы получаем 14.2 ток/с — почти в 1.5 раза быстрее, при этом модель остаётся адекватной (тесты на осмысленность показали сопоставимые результаты с Q2).

Квантование: цена бита

IQ1_M — крайне агрессивный квант, почти 1.7 бита на вес. В нашем тесте GLM-5 на M3 Ultra мы уже видели, что TQ1 даёт 20 ток/с, но здесь мы работаем с моделью в 10 раз больше. Сюрприз: несмотря на опасения, качество текста на IQ1_M оказалось вполне приемлемым для суммаризации и кода (но не для математики). Если вам нужна точность — лучше Q2_K. Иначе готовьтесь к «галлюцинациям» на сложных запросах.

Интересный момент: в тесте на 4×3090 IQ1_M не ускорил вывод из-за узких мест PCIe. У нас 5 карт AMD — и узким местом стали не шины, а чипы памяти. Но поскольку у каждой карты по 32 ГБ, а модель влезает в сумму, скорость выросла. Мораль: для IQ1_M важнее, чтобы все данные поместились в VRAM без сбрасывания.

Стоимость запуска: от $/час до $/million токенов

Сравнили три конфигурации с точки зрения операционных затрат. Цены на железо — рыночные на июль 2026, электричество — $0.10 за кВт·ч.

Параметр	5× AMD Pro 6000 (Q2_K)	5× AMD Pro 6000 (IQ1_M)	1× RTX 5090 (offloaded)
Мощность (стенд, полная нагрузка)	~1850 Вт	~1850 Вт	~650 Вт (с процессом и памятью)
Стоимость электричества в час	$0.185	$0.185	$0.065
Генерация токенов в час	~31,320	~51,120	~3,240
Стоимость 1 млн токенов (электричество)	$5.90	$3.62	$20.06
Стоимость железа (розница)	$12,500	$12,500	$2,500
Окупаемость при работе 24/7 (только э/э)	~7.8 млн токенов	~4.8 млн токенов	— (нерентабельно)

Даже с учётом дорогих карт AMD, стоимость токена в IQ1_M ($3.62/млн) сопоставима с арендой облачного H100 (~$4.5/млн по данным из сравнения RTX Pro 6000 SE с H100). Но вы покупаете железо один раз и дальше платите только за свет. Если ваша нагрузка >5 млн токенов в месяц, своя сборка окупается за полгода.

RTX 5090 с offloading провалилась по скорости: меньше 1 ток/с не позволяет использовать её для реального инференса. Даже для экспериментов это слишком мучительно. Если очень хочется запустить GLM5.2 на одной карте — берите хотя бы RTX Pro 6000 с 48 ГБ или ждите 5090 Ti.

Что вынес я (и что советую вам)

Первый сюрприз: пять карт AMD Pro 6000 — это реально работающая альтернатива H100 для больших моделей, если вы готовы мириться с шумом и тепловыделением (да, ваша комната превратится в сауну). Второй — IQ1_M на AMD даёт отличную скорость, но не надейтесь на безупречную точность. Третий — не покупайте одну RTX 5090 в надежде запустить 744B-модель. Ни offloading, ни свопинг не спасут — вы получите 0.9 ток/с и сожжённые нервы.

Неожиданный совет: если у вас уже есть четыре видеокарты (например, 4×3090) и вы думаете о пятой, гляньте на статью про 7 карт на AM5 — там описаны подводные камни PCIe-коммутаторов и P2P. В нашем тесте с пятью картами не было серьёзных проблем, но запас по слоту и правильная конфигурация питания — ключ к успеху.

GLM5.2 подтвердил, что multi-GPU (особенно на AMD) — жизнеспособный путь. Но готовьтесь к тому, что PPD (preprocessing per device) и TPS (tokens per second) будут плавать в зависимости от версии драйвера и прошивки PCIe. Наш эксперимент показал: стабильные 14 ток/с на декодинге — это реально. А это значит, что даже полукоммерческие проекты могут позволить себе запуск моделей уровня Llama 4 или GLM5.2 без аренды облака.

Если у вас остались вопросы по конкретной сборке — пишите в комментариях. А пока я пойду отключать пятикарточный обогреватель: на улице +30, а кондиционер не справляется.

Подписаться на канал

GLM5.2 на 5x Pro 6000s и 5090: тест производительности, квантование и стоимость запуска

Железо, которое мы не побоялись нагрузить

Только цифры: кто сколько токенов выдавил

Квантование: цена бита

Стоимость запуска: от $/час до $/million токенов

Что вынес я (и что советую вам)

Подписывайтесь на наш канал!