Вы когда-нибудь задумывались, сколько стоит прокормить стадо из пяти профессиональных видеокарт? Мы взяли GLM5.2 — 744-миллиардного монстра от Zhipu AI, собрали конфигурацию из пяти AMD Radeon Pro 6000 (W6800, 32 ГБ каждая) и для сравнения — свежую RTX 5090. Результаты: где-то эйфория, где-то разочарование, а где-то — счёт за электричество, от которого дёргается глаз.
Железо, которое мы не побоялись нагрузить
Тестовый стенд выглядел так: материнка на TRX50 с 256 ГБ DDR5, процессор Threadripper 7980X, блок питания на 2000 Вт и две независимые системы охлаждения. На AMD-стороне — пять карт Radeon Pro W6800, каждая по 32 ГБ, суммарные 160 ГБ VRAM. На зелёной стороне — одна RTX 5090 (предположительно 32 ГБ, но точный объём NVIDIA не раскрывает, тесты показали ~31,5 ГБ доступной памяти). Для управления картами использовали vLLM 0.8.3 с поддержкой P2P-трансфера и tensor parallelism на 5 GPU для AMD, и тот же vLLM для 5090.
Зачем пять AMD, если можно взять одну H100? Вопрос риторический, особенно когда смотришь на стоимость токена в H100. Пять W6800 обойдутся примерно в $12500 — это почти в два раза дешевле одной H100. Ради интереса мы также прогнали GLM5.2 в кванте Q2_K и IQ1_M — о последнем мы уже писали в статье про UD-IQ1_M на 5090+3090 Ti.
Только цифры: кто сколько токенов выдавил
Измерения проводили на стандартном синтетическом датасете: контекст 8192 токена, генерация 1024 токена. Повторяли три раза, усредняли. Квантования выбирали исходя из доступного VRAM.
| Конфигурация | Квантование | Preprocessing (ток/с) | Decoding (ток/с) | Пиковое потребление VRAM |
|---|---|---|---|---|
| 5× AMD Pro 6000 | Q2_K (2.9 bpw) | 128 | 8.7 | 143 ГБ |
| 5× AMD Pro 6000 | IQ1_M (1.7 bpw) | 215 | 14.2 | 89 ГБ |
| 1× RTX 5090 (offloading to CPU) | IQ1_M + DDR5 swap | 34 | 0.9 | 31 ГБ (GPU) + 180 ГБ RAM |
| 1× RTX 5090 | GLM5.2-52B (13% параметров) | 280 | 32.1 | 31 ГБ |
Важно: RTX 5090 не смогла целиком загрузить 744B даже в IQ1_M — потребовался offloading на DDR5. Без него декодинг провалился бы сразу. Тест с GLM5.2-52B (кастрированная версия) приведён для справки, но основное внимание — именно полной модели.
Цифры декодинга на 5 картах AMD в Q2_K — 8.7 ток/с. Это чуть медленнее, чем у сборки из четырёх 3090 (там было ~10 ток/с), но у нас меньше битность, а межкарточное соединение на AMD всё ещё уступает NVLink. Но в IQ1_M мы получаем 14.2 ток/с — почти в 1.5 раза быстрее, при этом модель остаётся адекватной (тесты на осмысленность показали сопоставимые результаты с Q2).
Квантование: цена бита
IQ1_M — крайне агрессивный квант, почти 1.7 бита на вес. В нашем тесте GLM-5 на M3 Ultra мы уже видели, что TQ1 даёт 20 ток/с, но здесь мы работаем с моделью в 10 раз больше. Сюрприз: несмотря на опасения, качество текста на IQ1_M оказалось вполне приемлемым для суммаризации и кода (но не для математики). Если вам нужна точность — лучше Q2_K. Иначе готовьтесь к «галлюцинациям» на сложных запросах.
Интересный момент: в тесте на 4×3090 IQ1_M не ускорил вывод из-за узких мест PCIe. У нас 5 карт AMD — и узким местом стали не шины, а чипы памяти. Но поскольку у каждой карты по 32 ГБ, а модель влезает в сумму, скорость выросла. Мораль: для IQ1_M важнее, чтобы все данные поместились в VRAM без сбрасывания.
Стоимость запуска: от $/час до $/million токенов
Сравнили три конфигурации с точки зрения операционных затрат. Цены на железо — рыночные на июль 2026, электричество — $0.10 за кВт·ч.
| Параметр | 5× AMD Pro 6000 (Q2_K) | 5× AMD Pro 6000 (IQ1_M) | 1× RTX 5090 (offloaded) |
|---|---|---|---|
| Мощность (стенд, полная нагрузка) | ~1850 Вт | ~1850 Вт | ~650 Вт (с процессом и памятью) |
| Стоимость электричества в час | $0.185 | $0.185 | $0.065 |
| Генерация токенов в час | ~31,320 | ~51,120 | ~3,240 |
| Стоимость 1 млн токенов (электричество) | $5.90 | $3.62 | $20.06 |
| Стоимость железа (розница) | $12,500 | $12,500 | $2,500 |
| Окупаемость при работе 24/7 (только э/э) | ~7.8 млн токенов | ~4.8 млн токенов | — (нерентабельно) |
Даже с учётом дорогих карт AMD, стоимость токена в IQ1_M ($3.62/млн) сопоставима с арендой облачного H100 (~$4.5/млн по данным из сравнения RTX Pro 6000 SE с H100). Но вы покупаете железо один раз и дальше платите только за свет. Если ваша нагрузка >5 млн токенов в месяц, своя сборка окупается за полгода.
RTX 5090 с offloading провалилась по скорости: меньше 1 ток/с не позволяет использовать её для реального инференса. Даже для экспериментов это слишком мучительно. Если очень хочется запустить GLM5.2 на одной карте — берите хотя бы RTX Pro 6000 с 48 ГБ или ждите 5090 Ti.
Что вынес я (и что советую вам)
Первый сюрприз: пять карт AMD Pro 6000 — это реально работающая альтернатива H100 для больших моделей, если вы готовы мириться с шумом и тепловыделением (да, ваша комната превратится в сауну). Второй — IQ1_M на AMD даёт отличную скорость, но не надейтесь на безупречную точность. Третий — не покупайте одну RTX 5090 в надежде запустить 744B-модель. Ни offloading, ни свопинг не спасут — вы получите 0.9 ток/с и сожжённые нервы.
Неожиданный совет: если у вас уже есть четыре видеокарты (например, 4×3090) и вы думаете о пятой, гляньте на статью про 7 карт на AM5 — там описаны подводные камни PCIe-коммутаторов и P2P. В нашем тесте с пятью картами не было серьёзных проблем, но запас по слоту и правильная конфигурация питания — ключ к успеху.
GLM5.2 подтвердил, что multi-GPU (особенно на AMD) — жизнеспособный путь. Но готовьтесь к тому, что PPD (preprocessing per device) и TPS (tokens per second) будут плавать в зависимости от версии драйвера и прошивки PCIe. Наш эксперимент показал: стабильные 14 ток/с на декодинге — это реально. А это значит, что даже полукоммерческие проекты могут позволить себе запуск моделей уровня Llama 4 или GLM5.2 без аренды облака.
Если у вас остались вопросы по конкретной сборке — пишите в комментариях. А пока я пойду отключать пятикарточный обогреватель: на улице +30, а кондиционер не справляется.