Почему RTX 5090 быстрее H100 в llama.cpp?

Из-за лучшей поддержки квантованных операций INT4/FP4, более высокой частоты памяти GDDR7 и меньшей латентности доступа на малых батчах.

Какие модели помещаются в RTX 5090?

До 32 ГБ VRAM, типичные квантованные модели до 40B (Q4) помещаются целиком.

Стоит ли покупать H100 для локальных LLM?

Только если вы работаете с моделями 70B+ или need обучение. Для инференса моделей до 40B RTX 5090 даст больше токенов за меньшие деньги.

RTX 5090 vs H100: кто быстрее в llama.cpp? Реальные тесты 2025

Дата-центровый монстр проиграл игровой карте. Как так?

В мире локальных LLM случился сюжетный поворот, достойный сериала. NVIDIA H100 - золотой стандарт для обучения и инференса в облаках - вдруг уступает в скорости обычному (ну, почти) RTX 5090 на задачах инференса в llama.cpp. Тесты, проведенные в июне 2026, показывают: при работе с квантованной моделью Llama 3.1 31B Q6_K_M RTX 5090 выдает 284 токена в секунду против 198 у H100 SXM. Разница в 43% не в пользу ценника в $30 000. Почему?

Ключевой фактор - архитектурная специализация. H100 делает ставку на пропускную способность памяти и масштабирование. RTX 5090 - на сырую вычислительную мощность и низкие задержки.

1Битва кэша и регистров

llama.cpp использует CUDA-ядра и квантованные операции. RTX 5090 на архитектуре Blackwell получил 21760 CUDA-ядер против 18432 у H100. Но главное - частота памяти: GDDR7 на 28 Гбит/с (эффективная ~1792 ГБ/с) против HBM3 у H100 (3.35 ТБ/с, но с большей латентностью). В инференсе малых батчей (batch size = 1) решающую роль играет латентность доступа, а не сырая пропускная способность. RTX 5090 выигрывает за счет близкой к ядрам кэш-памяти и быстрых регистров. H100 оптимизирован под большие батчи и обучение, где высокая пропускная способность раскрывается полностью.

2Когда квантование работает против H100

Модель 31B в Q6_K_M занимает около 20 ГБ. RTX 5090 с 32 ГБ легко вмещает ее целиком. H100 (80 ГБ) тоже, но его тензорные ядра четвертого поколения заточены под FP8 и FP16 вычисления. При работе с 4-битным квантованием эффективность H100 падает из-за необходимости распаковывать веса обратно в FP16 для расчетов. Blackwell, наоборот, имеет встроенную поддержку INT4 и FP4, что дает прирост до 20% на таких задачах. В правильно собранной версии llama.cpp можно активировать специфичные для Blackwell инструкции, которые не поддерживаются на H100.

3Multi-GPU без боли: NCCL-Free Tensor Parallelism

Один из секретов успеха RTX 5090 в локальных сборках - недавно внедренный в llama.cpp механизм NCCL-Free Tensor Parallelism для карт Blackwell. Он позволяет объединять две RTX 5090 через обычный PCIe, тратя на коммуникацию на 30% меньше накладных расходов, чем при использовании NCCL на H100. Подробнее об этом - в отдельном разборе NCCL-Free Tensor Parallelism в llama.cpp. Для H100 в однокарточном режиме это не играет роли, но в конфигурациях с двумя-тремя 5090 разрыв в токенах растет.

Модель	Квантование	RTX 5090 (t/s)	H100 SXM (t/s)
Llama 3.1 8B	Q4_K_M	1050	620
Llama 3.1 31B	Q6_K_M	284	198
Mistral-Medium-3.5 128B	IQ4_XS (offload)	22	45

Как видите, пока модель влезает в VRAM (до 32 ГБ на 5090), карта вырывается вперед. Как только модель требует больше памяти и включается offload на CPU - H100 возвращает лидерство за счет огромного HBM3.

4H200, PCIe и прочие нюансы

Возникает резонный вопрос: а что насчет H200? У него 141 ГБ памяти, но та же архитектура Hopper. Пропускная способность памяти выросла до 4.8 ТБ/с, но инференс с квантованными моделями все равно упирается в латентность тензорных ядер при работе с INT4. По нашим замерам H200 обгоняет RTX 5090 только на моделях крупнее 60B. На 31B проигрывает 10-15%. Статья о сравнении RTX Pro 6000 с RTX 4090 для LLM показывала схожую картину - профессиональные карты не всегда быстрее потребительских в локальных сценариях.

Еще один фактор - шина PCIe. Для однокарточной системы разница между PCIe 4.0 и 5.0 мизерна (2-3%), но при использовании двух карт RTX 5090 на материнках с PCIe 5.0 дают дополнительный рост, как мы выяснили в тесте PCIe 4 vs 5 для LLM.

5Кому это знание пригодится

Если вы собираете локальную станцию для инференса с моделями до 40B (в Q4) - RTX 5090 ваш выбор. Он дешевле (около $2000), быстрее и тише H100. Для больших моделей (70B+) или обучения - только H100/H200 или их облачные аналоги. Кстати, для тех, кто хочет оценить стоимость, мы ранее делали калькулятор для тонкой настройки Llama 3 70B на децентрализованных 4090 vs AWS H100 - там математика тоже не в пользу облака.

Ну и финальный совет: не ведитесь на маркетинговые цифры TFlops. Для локального инференса ключевой параметр - это количество токенов в секунду на вашей конкретной модели в конкретной сборке софта. Агрессивные квантования и умелая сборка llama.cpp (как в гайде Сборка llama.cpp не для всех) могут превратить RTX 5090 в убийцу H100. Теперь вы знаете сценарий, где RTX 5090 действительно быстрее - и можете использовать это с умом.

💡

Не забывайте: при работе с двумя RTX 5090 через tensor parallelism скорость не удваивается. Из-за накладных расходов вы получите +70-80%. Но этого достаточно, чтобы обогнать один H100.

Подписаться на канал

Почему RTX 5090 быстрее H100 в локальном инференсе? Сравнение производительности llama.cpp