Облако гонит счётчик, железо молчит. Почему?
Стоимость одного часа инференса на H100 в облаке - это как ужин в хорошем ресторане. Если вы проводите нейроанатомию моделей, маппинг или просто экспериментируете с разными весами, счёт за месяц легко переваливает за 5000-7000 евро. Именно с этой цифры начал мой знакомый из Мюнхена, прежде чем купить собственную видеокарту.
В марте 2026 года цены на облачные GPU всё ещё растут пропорционально хайпу. Стоимость часа на H100 в западных дата-центрах достигает 8-10 долларов. При активной работе 200 часов в месяц - вот и 2000 долларов.
Кейс из Мюнхена: один выстрел - два H100
Инженер-исследователь (назовём его Маркус) работал с маппированием активаций в больших моделях типа Llama 4 405B (последняя версия на март 2026). Его задача - понять, как модель хранит знания о химических соединениях. Для этого нужно было запускать инференс с разными промптами, менять слои, снимать метрики.
За три месяца облачных экспериментов с двумя H100 счёт подобрался к 21 000 евро. Маркус посчитал иначе.
| Статья расходов | Облако (3 мес.) | Свой сервер |
|---|---|---|
| Аренда 2xH100 | ~21 000€ | 0€ |
| Покупка железа | 0€ | ~28 000€ |
| Электричество (700Вт, 24/7) | 0€ | ~500€ |
| ИТОГО за 3 месяца | 21 000€ | 28 500€ |
| ИТОГО за 6 месяцев | 42 000€ | 29 000€ |
Через 6 месяцев его сервер вышел в ноль. Всё, что после - чистая экономия. Но железо не превращается в тыкву - его можно продать за 60-70% стоимости или использовать дальше.
Что внутри этого денежного принтера?
Сборка Маркуса - не игровой ПК. Это серверная платформа, спроектированная для непрерывной нагрузки.
- 2 x NVIDIA H100 80GB SXM - не PCIe версия, а именно SXM для максимальной пропускной способности через NVLink. На март 2026 это всё ещё топ для LLM, хотя уже есть информация о H200. SXM даёт до 7.8x быстрее инференс по сравнению с A100.
- Материнская плата Supermicro SYS-221H-TNR - система с двумя процессорами Intel Xeon Scalable 4-го поколения (Sapphire Rapids). Поддерживает до 4TB памяти.
- Оперативная память: 512GB DDR5 4800MHz - меньше нельзя, если работаешь с моделями от 200B параметров.
- Блок питания: 2000Вт 80+ Platinum - с запасом. Пиковое потребление двух H100 - около 1400Вт.
- Кастомная система охлаждения - не жидкость, а мощные 140mm вентиляторы в серверном шкафу. Шум - 55 дБ, сервер стоит в отдельном помещении.
1 Собираем и настраиваем: не сожгите розетку
Первая ошибка всех энтузиастов - подключить сервер к обычной домашней сети 220V/16A. Максимальная мощность такой линии - 3520Вт. Два H100 плюс система - это уже 1800-2000Вт. Добавьте холодильник, чайник и вот у вас уже сработал автомат.
Маркус провел отдельную линию 220V/32A с собственным автоматом в щитке. Стоило это 300 евро с работой. Дешевле, чем тушить пожар.
Установка ОС - Ubuntu Server 24.04 LTS (актуальная версия на 2026 год). Драйверы CUDA 13.5 (или новее, если вышло). Ключевой момент - настройка persistence mode для GPU и правильное выставление лимитов мощности через nvidia-smi.
# Устанавливаем лимит в 700Вт на каждую H100 вместо штатных 800Вт
# Потеря производительности - 5-7%, зато температура ниже на 10°C
sudo nvidia-smi -pl 700 -i 0
sudo nvidia-smi -pl 700 -i 1
# Включаем persistence mode, чтобы драйвер не выгружался
sudo nvidia-smi -pm 1
2 Счётчик под контролем: мониторим каждый ватт
Без мониторинга энергопотребления вы летите вслепую. Маркус использовал умную розетку Sonoff POW R3 с прошивкой Tasmota. Она стоит около 40 евро и передаёт данные по MQTT.
Настройка:
- Прошиваем Sonoff Tasmota через последовательный порт.
- Настраиваем подключение к Wi-Fi.
- Включаем отправку данных на локальный MQTT-брокер (Mosquitto).
- В Grafana добавляем источник данных InfluxDB, куда пишутся данные с MQTT.
# Конфигурация Tasmota для отправки данных каждые 5 секунд
Rule1
ON Energy#Power DO publish sonoff/power %value% ENDON
ON Energy#Current DO publish sonoff/current %value% ENDON
ON Energy#Voltage DO publish sonoff/voltage %value% ENDON
В Grafana дашборд показывает не только текущее потребление, но и прогноз счёта за месяц. Привычка смотреть на него перед запуском тяжёлой задачи - как глоток холодной воды. Вдруг сейчас пиковый тариф?
Для тех, кто не хочет возиться с Tasmota, есть готовые решения от Shelly (Shelly Plug S) или TP-Link Tapo. Они работают из коробки, но дают меньше метрик. Зато быстрее.
3 Программная начинка: что запускать, кроме vLLM
vLLM - стандарт де-факто для эффективного инференса в 2026 году. Но для экспериментов с нейроанатомией нужны специальные инструменты.
- llama.cpp - для запуска квантованных версий моделей (GGUF). Если не хватает памяти GPU, часть слоев уходит в RAM. В статье про CPU+RAM инференс есть подробности.
- ExLlamaV3 - последняя версия на март 2026, поддерживает новые типы квантования EXL3, которые дают меньшую потерю качества при 3-битном сжатии.
- TensorBoard / Weights & Biases - для отслеживания активаций, градиентов и метрик во время экспериментов.
- Собственные скрипты на PyTorch - для маппинга нейронов. Маркус использовал технику активационного патчинга, чтобы найти, где модель хранит знания о химических формулах.
Совет: не устанавливайте всё подряд. Используйте Docker или Conda для изоляции сред. Одна несовместимая версия библиотеки - и вы теряете день на отладке.
# Пример запуска Llama 4 405B через vLLM с распределением по двум GPU
# Актуальный синтаксис на март 2026
python -m vllm.entrypoints.openai.api_server \
--model meta-llama/Llama-4-405B-Instruct \
--tensor-parallel-size 2 \
--gpu-memory-utilization 0.95 \
--max-model-len 8192 \
--api-key "your_key"
Откуда берётся окупаемость? Не только экономия
Если считать только разницу между облаком и своим железом, точка безубыточности наступает через 6-9 месяцев. Но есть скрытые выгоды:
- Нулевая задержка на запуск. В облаке вам нужно разворачивать инстанс, ждать загрузки модели, платить за это время. Локально - модель уже в памяти, эксперимент начинается за 2 секунды.
- Полный контроль над безопасностью. Ваши промпты с закрытыми данными никуда не уходят. Для корпоративных исследований это критично. У нас есть кейс, как сэкономить 15 000$ в месяц на токенах с локальным развёртыванием.
- Возможность модификации железа. Добавили ещё одну H100? Увеличили RAM до 1TB? В облаке вы ограничены тем, что предлагает провайдер.
- Побочный доход. Маркус начал сдавать вычислительные мощности коллегам по лаборатории (вне пиковых часов). Небольшой внутренний billing на 500 евро в месяц покрывает электричество.
Где спрятаны грабли? Ошибки, которые стоят денег
1. Экономия на блоке питания. Дешёвый PSU с плохой эффективностью (80+ Bronze вместо Platinum) за год съест лишние 100-150 евро на электричестве. И может сгореть, утянув за собой материнскую плату.
2. Игнорирование тепловыделения. Один H100 выделяет до 800Вт тепла. Без proper ventilation температура в комнате поднимется до 35°C за час. Кондиционер - must have. Иначе троттлинг GPU снизит производительность на 20%.
3. Неправильный выбор модели LLM. Запуск 405B параметров на двух H100 даёт скорость генерации 5-7 токенов в секунду. Для интерактивной работы медленно. Нужно квантование или выбор меньшей модели. Всегда тестируйте на облачном инстансе перед покупкой железа. Или используйте llama-swap для быстрого переключения между моделями.
4. Отсутствие плана Б. Железо ломается. H100 выходит из строя. Ремонт по гарантии - 2-3 недели. На этот случай нужен доступ к облаку или запасная карта (например, RTX 5090, которая вышла в конце 2025).
Что дальше? AI не стоит на месте
В 2026 году на подходе модели с 1 триллионом параметров, которые требуют не 2, а 8 или 16 GPU для инференса. Стоит ли сейчас вкладываться в две H100? Если ваши эксперименты упираются в вычислительную мощность - да. Если вы только начинаете - возможно, лучше начать с одной карты или даже с аренды, чтобы понять workflow.
Мой прогноз: к концу 2026 года появятся специализированные ASIC для LLM инференса (как Google TPU, но для дома). Они будут потреблять в 3 раза меньше энергии при той же производительности. Но стоимость будет высокой первые пару лет.
Пока же домашний сервер на H100 - это как собственная лаборатория алхимика. Дорого, пахнет озоном, но результаты принадлежат только вам. И через год это железо будет стоить не ноль, а 40-50% от первоначальной цены - спрос на бывшие в употреблении GPU для AI остаётся высоким.
Последний совет: Перед покупкой дорогого железа проведите двухнедельный эксперимент: арендуйте эквивалентный инстанс в облаке и записывайте каждую сессию работы. Сколько часов в день вы реально используете GPU? Какой pattern нагрузки? Эта метрика покажет, нужен ли вам сервер 24/7 или достаточно более слабой конфигурации.