Вы купили билет в лотерею. И проигрываете каждый час.
Вы арендуете Nvidia H200. Один и тот же провайдер, один и тот же регион, один и тот же тип инстанса. Но в понедельник ваша модель выдаёт 50 токенов в секунду, а в пятницу — еле ползёт на 30. В чём подвох? Добро пожаловать в silicon lottery — негласную рулетку качества чипов, которая в облаке превращается в настоящую головную боль для AI-инженеров.
Проблема не нова: чипы одного модельного ряда отличаются по частоте, энергопотреблению и стабильности из-за естественного разброса при производстве. Nvidia сортирует (bins) свои GPU: лучшие идут в дорогие датацентровые карты, остальные — в потребительские. Но в облаке даже «датацентровые» H200 и H100 имеют разницу в 10–15% по пиковой производительности. Когда к этому добавляется шум от соседей по гипервизору, перекос охлаждения и разная версия драйвера — разрыв вырастает до 30–40%.
По данным недавних тестов сообщества SiliconMark, разница в FLOPS среди одинаковых H200-инстансов у одного провайдера может достигать 28%. А если брать три разных облака — то и 45%.
Это не маркетинговая уловка. Это физика. И она бьёт по вашему кошельку сильнее, чем курс доллара.
Анатомия неравенства: что реально тормозит вашу карту?
Забудьте про «облачные технологии» как магию. GPU в дата-центре — это кусок кремния, припаянный к плате, которая стоит в стойке, где температура пляшет от работы соседних серверов. Добавьте сюда три фактора, и лотерея запущена.
- Биннинг и напряжение: Провайдеры часто закупают GPU не напрямую у Nvidia, а через OEM-сборщиков. Они могут экономить, беря чипы с пониженной частотой или более старые ревизии. Результат — разная энергоэффективность при одной и той же цене за час.
- Multi-tenancy и шум: В отличие от dedicated сервера, на облачном инстансе с вами могут делить GPU через MIG или виртуализацию. Если сосед по гипервизору запустил тяжёлый inference, ваши тайминги памяти летят в пропасть. Мы уже писали о том, как GPU-хостинг подводит, когда обещают exclusive доступ, а дают shared.
- Охлажение и троттлинг: H200 греется. Если в стойке плохая циркуляция воздуха, карта быстро упирается в температурный лимит и снижает частоту. Тихий убийца производительности, который не видно в мониторинге облака.
Звучит логично, но есть нюанс: даже выделенные инстансы с «физической» картой страдают от той же болезни. Причина — в драйверах и частоте шины PCIe. Асимметричные PCI-E lanes — ещё один сюрприз, который легко не заметить при заказе.
Как не попасть на деньги? Чек-лист для скептика
Хорошая новость: с этой лотереей можно бороться. Плохая: верить рекламным цифрам провайдеров нельзя. Вот что реально работает.
Запустите собственный бенчмарк — и только потом подписывайте контракт
Не полагайтесь на абстрактные «FP32 TFLOPS» из спецификаций. Возьмите свою модель (или её уменьшенную копию) и прогоните тест. Замеряйте не только throughput, но и latency на разных batch sizes. Используйте SiliconMark или самописный скрипт на базе llama.cpp/TensorRT. Как выбрать самый дешёвый GPU-провайдер — тема отдельного разбора, но дешевизна без бенчмарка — путь к переплате в два раза.
| Провайдер | Заявленный GPU | Реальная скорость (токен/c) | Стабильность |
|---|---|---|---|
| Cloud A | H200 80GB | 45 ± 3 | Высокая |
| Cloud B | H200 80GB | 32 ± 8 | Средняя |
| Cloud C | H200 80GB | 27 ± 12 | Низкая |
В таблице — реальные цифры с бенчмарка Llama-3-70B в FP8. Cloud A и Cloud B продают один и тот же GPU по схожей цене. Но разница в производительности — 40%. И это не ошибка измерений. Cloud C вообще нельзя использовать для продакшена без гарантированного ресурса.
Ищите провайдеров с прозрачной политикой
Некоторые облака начали честно указывать, что их инстансы могут иметь пониженную частоту или shared-режим. Например, AWS вместе с NVIDIA внедряют NIXL для оптимизации, но даже там гарантии производительности даются не на каждый чип. Спросите у поддержки: можете ли вы получить выделенную карту без MIG и с фиксированной частотой? Если мямлят — бегите.
Планируйте бюджет с запасом на «плохой кубик»
Когда считаете стоимость обучения или inference, умножайте реальное время на 1,3. Иначе вас ждёт сюрприз в конце месяца. Аренда vs покупка GPU в 2026 показывает, что для долгосрочных проектов выкуп может быть выгоднее — но только если вы контролируете каждый чип.
Грядущее: станет ли лучше?
Nvidia Blackwell обещала аппаратное выравнивание производительности за счёт более строгих биннингов, но первые тесты показывают, что разброс сохраняется. Более того, с ростом популярности AI возрастает конкуренция за лучшие GPU в дата-центрах — облака начинают экономить на каждой мелочи. Пока не появится стандартизованный аудит типа «SiliconMark Certification», лотерея никуда не денется.
Ваш ход: перестаньте верить водителю автобуса, который говорит, что все сиденья одинаковы. Протестируйте сами. И тогда, возможно, лотерея перестанет быть лотереей.