Иллюзия экономии: почему "своя железка" часто оказывается дороже
Каждый второй технический директор, глядя на счета от OpenAI или Anthropic, мечтает купить пачку видеокарт и "раз и навсегда решить проблему". Звучит логично: разовый платёж против вечной аренды. Но это ловушка. Потому что никто не считает полную стоимость владения (TCO). А она включает не только ценник на сайте NVIDIA.
Blackwell B200 стоит около $30 000. За эти деньги вы получаете монстра с 192 ГБ HBM3e памяти. Достаточно для запуска Llama 3.1 405B в 4-битном квантовании или пачки маленьких моделей одновременно. Но остановитесь. Прежде чем нажимать "купить", посчитайте вот что.
Главная ошибка: сравнивать только стоимость железа со стоимостью токенов. Это как сравнивать цену автомобиля со стоимостью такси - забывая про бензин, страховку, парковку и ремонт.
Полный расчёт: что прячется за ценой в $30 000
Давайте разложим по полочкам все скрытые расходы на локальную инфраструктуру. Возьмём для примера один сервер с двумя Blackwell B200 (потому что один - это странно, инфраструктура любит пары).
| Статья расходов | Стоимость | Периодичность |
|---|---|---|
| 2x Blackwell B200 | $60 000 | разово |
| Сервер (2U, 1600W) | $15 000 | разово |
| Электричество (2 кВт * 24ч) | $350/месяц | ежемесячно |
| Охлаждение (CRAC/CRAH) | $200/месяц | ежемесячно |
| Площадь в дата-центре | $150/месяц | ежемесячно |
| Сетевой канал (10 Gbps) | $300/месяц | ежемесячно |
| Администрирование (0.5 FTE) | $4 000/месяц | ежемесячно |
| Резервное копирование/DR | $200/месяц | ежемесячно |
Видите? Только железо - это меньше половины истории. Ежемесячные операционные расходы (OpEx) составляют около $5 000. И это ещё без учёта амортизации самого оборудования.
Точка безубыточности: когда облако проигрывает
Теперь посчитаем, при каком объёме запросов Blackwell становится выгоднее облачных API. Возьмём для сравнения GPT-4o через Azure OpenAI:
- Входные токены: $5.00 за 1M
- Выходные токены: $15.00 за 1M
- Средний запрос: 1K входных + 2K выходных токенов = $0.035
Наш локальный кластер с двумя B200 стоит $75 000 капитальных расходов (CapEx) и $5 000/месяц операционных. Амортизация на 3 года: $75 000 / 36 месяцев = $2 083/месяц.
Итого ежемесячная фиксированная стоимость: $5 000 (OpEx) + $2 083 (амортизация) = $7 083/месяц.
Теперь делим это на стоимость одного облачного запроса: $7 083 / $0.035 = 202 371 запрос в месяц.
Или примерно 6 746 запросов в день.
Важно: Это точка безубыточности только по деньгам. Но локальные LLM дают другие преимущества: нулевую задержку, полный контроль данных, отсутствие лимитов на запросы. Если эти факторы критичны для бизнеса - точка безубыточности смещается.
Сценарии, где Blackwell выигрывает с разгромным счётом
Есть ситуации, где математика работает на вас. Не всегда, но часто.
1 Массовая пакетная обработка
Представьте: вам нужно обрабатывать 100 000 документов ежедневно. Каждый документ - 10 000 токенов. В облаке это будет стоить: (100 000 * 10 000 / 1 000 000) * $5 = $5 000 в день. Или $150 000 в месяц.
Локальный Blackwell справится за те же $7 083/месяц. Экономия: 95%. Здесь окупаемость железа наступает за неделю.
2 GDPR и регуляторные требования
Европейские компании не могут просто так отправлять данные в американское облако. Штрафы за нарушения GDPR достигают 4% глобального оборота. Один штраф - и вы покупаете десяток Blackwell.
Если данные должны оставаться в юрисдикции - выбор очевиден. Как показано в нашем анализе, локальная инфраструктура становится не опцией, а требованием.
3 Низкая задержка и предсказуемость
Торгующие алгоритмы, чат-боты поддержки, интерактивные приложения - где каждая миллисекунда на счету. Облачные API добавляют 100-300 мс сетевой задержки. Локальный кластер - 5-10 мс.
Когда время ответа напрямую конвертируется в деньги (как в трейдинге или e-commerce), Blackwell окупается моментально.
Подводные камни, о которых молчат продавцы железа
Прежде чем бежать за чековой книжкой, учтите эти моменты.
Модели устаревают быстрее железа
Blackwell прослужит 3-4 года. Но модель, которую вы запускаете сегодня, через год будет выглядеть как паровоз на фоне Hyperloop. Llama 3 сегодня - круто. Llama 4 завтра - в 2 раза лучше при тех же ресурсах.
Облачные провайдеры обновляют модели прозрачно. Вы приходите на работу - а там уже GPT-4.1. С локальным железом вам нужно самим качать веса, конвертировать, тестировать. Это время инженеров. Это риск.
Надёжность - ваша головная боль
Azure OpenAI имеет SLA 99.9%. Ваш сервер в дата-центре - насколько надёжны ваши инженеры? Сетевые коммутаторы? Электропитание?
Один сбой - и ваши чат-боты молчат. Клиенты уходят. Деньги теряются. В облаке за это отвечает провайдер. У себя - только вы.
Масштабирование в моменте
Чёрная пятница. Нагрузка выросла в 10 раз. В облаке вы просто запрашиваете больше инстансов. С локальным Blackwell... покупаете ещё один сервер за $40 000 и ждёте доставки 8 недель.
Или держите простаивающие мощности "на всякий случай". Что дороже.
Гибридный подход: когда и то, и другое
Умные компании не выбирают между локальным и облачным. Они используют оба. Вот как это работает:
- Базовый трафик идёт на локальные Blackwell - стабильная нагрузка, предсказуемые затраты.
- Пиковые нагрузки переливаются в облако через LLMRouter или аналогичные решения.
- Эксперименты с новыми моделями сначала в облаке (быстро, без установки), потом переносятся локально если оправданы.
- Чувствительные данные обрабатываются только локально, остальное - где дешевле.
Такой подход даёт лучшее из двух миров: контроль и экономию на базовой нагрузке + гибкость и масштабируемость на пиках.
Формула для вашего бизнеса
Возьмите табличку. Заполните свои цифры.
| Параметр | Ваше значение | Формула |
|---|---|---|
| Ежемесячный трафик (запросы) | ________ | Из аналитики |
| Средний размер запроса (токены) | ________ | Входные + выходные |
| Стоимость облака/месяц | ________ | Трафик * цена/токен |
| Требуемая задержка (мс) | ________ | SLA бизнеса |
| Регуляторные требования | Да/Нет | GDPR, HIPAA и т.д. |
Если стоимость облака превышает $10 000/месяц, задержка критична, или регуляторы требуют локального хранения - Blackwell начинает выглядеть привлекательно.
Что будет через 2 года?
Технологии не стоят на месте. Учитывайте тренды:
- Цены на облачные API падают на 30-50% ежегодно. То, что сегодня кажется дорогим, завтра может стать дёшево.
- Новые архитектуры моделей (вроде Mamba) требуют меньше памяти и вычислений.
- Квантование становится умнее. Модели в 2 бита уже работают почти без потерь качества.
- Память дорожает. Как предсказывалось ранее, HBM становится узким местом.
Мой прогноз: Blackwell окупится для компаний с стабильной высокой нагрузкой (10 000+ запросов/час) или жёсткими регуляторными требованиями. Для остальных - облако + стратегическое ожидание.
Ждать, пока цены на железо упадут? Опасная игра. Пока вы ждёте, конкуренты уже используют AI для оптимизации процессов. Иногда лучше начать платить облаку, но начать сегодня, чем ждать идеального момента для покупки железа.
Последний совет: если всё же покупаете Blackwell, берите не одну карту, а минимум две. Одна для продакшена, вторая для тестов, разработки и как hot spare. Одна карта - это точка отказа. Две - это инфраструктура.