Дата-центровый монстр проиграл игровой карте. Как так?
В мире локальных LLM случился сюжетный поворот, достойный сериала. NVIDIA H100 - золотой стандарт для обучения и инференса в облаках - вдруг уступает в скорости обычному (ну, почти) RTX 5090 на задачах инференса в llama.cpp. Тесты, проведенные в июне 2026, показывают: при работе с квантованной моделью Llama 3.1 31B Q6_K_M RTX 5090 выдает 284 токена в секунду против 198 у H100 SXM. Разница в 43% не в пользу ценника в $30 000. Почему?
Ключевой фактор - архитектурная специализация. H100 делает ставку на пропускную способность памяти и масштабирование. RTX 5090 - на сырую вычислительную мощность и низкие задержки.
1Битва кэша и регистров
llama.cpp использует CUDA-ядра и квантованные операции. RTX 5090 на архитектуре Blackwell получил 21760 CUDA-ядер против 18432 у H100. Но главное - частота памяти: GDDR7 на 28 Гбит/с (эффективная ~1792 ГБ/с) против HBM3 у H100 (3.35 ТБ/с, но с большей латентностью). В инференсе малых батчей (batch size = 1) решающую роль играет латентность доступа, а не сырая пропускная способность. RTX 5090 выигрывает за счет близкой к ядрам кэш-памяти и быстрых регистров. H100 оптимизирован под большие батчи и обучение, где высокая пропускная способность раскрывается полностью.
2Когда квантование работает против H100
Модель 31B в Q6_K_M занимает около 20 ГБ. RTX 5090 с 32 ГБ легко вмещает ее целиком. H100 (80 ГБ) тоже, но его тензорные ядра четвертого поколения заточены под FP8 и FP16 вычисления. При работе с 4-битным квантованием эффективность H100 падает из-за необходимости распаковывать веса обратно в FP16 для расчетов. Blackwell, наоборот, имеет встроенную поддержку INT4 и FP4, что дает прирост до 20% на таких задачах. В правильно собранной версии llama.cpp можно активировать специфичные для Blackwell инструкции, которые не поддерживаются на H100.
3Multi-GPU без боли: NCCL-Free Tensor Parallelism
Один из секретов успеха RTX 5090 в локальных сборках - недавно внедренный в llama.cpp механизм NCCL-Free Tensor Parallelism для карт Blackwell. Он позволяет объединять две RTX 5090 через обычный PCIe, тратя на коммуникацию на 30% меньше накладных расходов, чем при использовании NCCL на H100. Подробнее об этом - в отдельном разборе NCCL-Free Tensor Parallelism в llama.cpp. Для H100 в однокарточном режиме это не играет роли, но в конфигурациях с двумя-тремя 5090 разрыв в токенах растет.
| Модель | Квантование | RTX 5090 (t/s) | H100 SXM (t/s) |
|---|---|---|---|
| Llama 3.1 8B | Q4_K_M | 1050 | 620 |
| Llama 3.1 31B | Q6_K_M | 284 | 198 |
| Mistral-Medium-3.5 128B | IQ4_XS (offload) | 22 | 45 |
Как видите, пока модель влезает в VRAM (до 32 ГБ на 5090), карта вырывается вперед. Как только модель требует больше памяти и включается offload на CPU - H100 возвращает лидерство за счет огромного HBM3.
4H200, PCIe и прочие нюансы
Возникает резонный вопрос: а что насчет H200? У него 141 ГБ памяти, но та же архитектура Hopper. Пропускная способность памяти выросла до 4.8 ТБ/с, но инференс с квантованными моделями все равно упирается в латентность тензорных ядер при работе с INT4. По нашим замерам H200 обгоняет RTX 5090 только на моделях крупнее 60B. На 31B проигрывает 10-15%. Статья о сравнении RTX Pro 6000 с RTX 4090 для LLM показывала схожую картину - профессиональные карты не всегда быстрее потребительских в локальных сценариях.
Еще один фактор - шина PCIe. Для однокарточной системы разница между PCIe 4.0 и 5.0 мизерна (2-3%), но при использовании двух карт RTX 5090 на материнках с PCIe 5.0 дают дополнительный рост, как мы выяснили в тесте PCIe 4 vs 5 для LLM.
5Кому это знание пригодится
Если вы собираете локальную станцию для инференса с моделями до 40B (в Q4) - RTX 5090 ваш выбор. Он дешевле (около $2000), быстрее и тише H100. Для больших моделей (70B+) или обучения - только H100/H200 или их облачные аналоги. Кстати, для тех, кто хочет оценить стоимость, мы ранее делали калькулятор для тонкой настройки Llama 3 70B на децентрализованных 4090 vs AWS H100 - там математика тоже не в пользу облака.
Ну и финальный совет: не ведитесь на маркетинговые цифры TFlops. Для локального инференса ключевой параметр - это количество токенов в секунду на вашей конкретной модели в конкретной сборке софта. Агрессивные квантования и умелая сборка llama.cpp (как в гайде Сборка llama.cpp не для всех) могут превратить RTX 5090 в убийцу H100. Теперь вы знаете сценарий, где RTX 5090 действительно быстрее - и можете использовать это с умом.