Облако гонит счётчик, железо молчит. Почему?

Стоимость одного часа инференса на H100 в облаке - это как ужин в хорошем ресторане. Если вы проводите нейроанатомию моделей, маппинг или просто экспериментируете с разными весами, счёт за месяц легко переваливает за 5000-7000 евро. Именно с этой цифры начал мой знакомый из Мюнхена, прежде чем купить собственную видеокарту.

В марте 2026 года цены на облачные GPU всё ещё растут пропорционально хайпу. Стоимость часа на H100 в западных дата-центрах достигает 8-10 долларов. При активной работе 200 часов в месяц - вот и 2000 долларов.

Кейс из Мюнхена: один выстрел - два H100

Инженер-исследователь (назовём его Маркус) работал с маппированием активаций в больших моделях типа Llama 4 405B (последняя версия на март 2026). Его задача - понять, как модель хранит знания о химических соединениях. Для этого нужно было запускать инференс с разными промптами, менять слои, снимать метрики.

За три месяца облачных экспериментов с двумя H100 счёт подобрался к 21 000 евро. Маркус посчитал иначе.

Статья расходов	Облако (3 мес.)	Свой сервер
Аренда 2xH100	~21 000€	0€
Покупка железа	0€	~28 000€
Электричество (700Вт, 24/7)	0€	~500€
ИТОГО за 3 месяца	21 000€	28 500€
ИТОГО за 6 месяцев	42 000€	29 000€

Через 6 месяцев его сервер вышел в ноль. Всё, что после - чистая экономия. Но железо не превращается в тыкву - его можно продать за 60-70% стоимости или использовать дальше.

Что внутри этого денежного принтера?

Сборка Маркуса - не игровой ПК. Это серверная платформа, спроектированная для непрерывной нагрузки.

2 x NVIDIA H100 80GB SXM - не PCIe версия, а именно SXM для максимальной пропускной способности через NVLink. На март 2026 это всё ещё топ для LLM, хотя уже есть информация о H200. SXM даёт до 7.8x быстрее инференс по сравнению с A100.
Материнская плата Supermicro SYS-221H-TNR - система с двумя процессорами Intel Xeon Scalable 4-го поколения (Sapphire Rapids). Поддерживает до 4TB памяти.
Оперативная память: 512GB DDR5 4800MHz - меньше нельзя, если работаешь с моделями от 200B параметров.
Блок питания: 2000Вт 80+ Platinum - с запасом. Пиковое потребление двух H100 - около 1400Вт.
Кастомная система охлаждения - не жидкость, а мощные 140mm вентиляторы в серверном шкафу. Шум - 55 дБ, сервер стоит в отдельном помещении.

💡

Если бюджет ограничен, посмотрите нашу статью про бюджетную 4-GPU ферму. Там вариант за 3000-4000 евро на базе RTX 4090 или более старых A6000. Для моделей до 70B параметров этого хватит.

1 Собираем и настраиваем: не сожгите розетку

Первая ошибка всех энтузиастов - подключить сервер к обычной домашней сети 220V/16A. Максимальная мощность такой линии - 3520Вт. Два H100 плюс система - это уже 1800-2000Вт. Добавьте холодильник, чайник и вот у вас уже сработал автомат.

Маркус провел отдельную линию 220V/32A с собственным автоматом в щитке. Стоило это 300 евро с работой. Дешевле, чем тушить пожар.

Установка ОС - Ubuntu Server 24.04 LTS (актуальная версия на 2026 год). Драйверы CUDA 13.5 (или новее, если вышло). Ключевой момент - настройка persistence mode для GPU и правильное выставление лимитов мощности через nvidia-smi.

# Устанавливаем лимит в 700Вт на каждую H100 вместо штатных 800Вт
# Потеря производительности - 5-7%, зато температура ниже на 10°C
sudo nvidia-smi -pl 700 -i 0
sudo nvidia-smi -pl 700 -i 1

# Включаем persistence mode, чтобы драйвер не выгружался
sudo nvidia-smi -pm 1

2 Счётчик под контролем: мониторим каждый ватт

Без мониторинга энергопотребления вы летите вслепую. Маркус использовал умную розетку Sonoff POW R3 с прошивкой Tasmota. Она стоит около 40 евро и передаёт данные по MQTT.

Настройка:

Прошиваем Sonoff Tasmota через последовательный порт.
Настраиваем подключение к Wi-Fi.
Включаем отправку данных на локальный MQTT-брокер (Mosquitto).
В Grafana добавляем источник данных InfluxDB, куда пишутся данные с MQTT.

# Конфигурация Tasmota для отправки данных каждые 5 секунд
Rule1
  ON Energy#Power DO publish sonoff/power %value% ENDON
  ON Energy#Current DO publish sonoff/current %value% ENDON
  ON Energy#Voltage DO publish sonoff/voltage %value% ENDON

В Grafana дашборд показывает не только текущее потребление, но и прогноз счёта за месяц. Привычка смотреть на него перед запуском тяжёлой задачи - как глоток холодной воды. Вдруг сейчас пиковый тариф?

Для тех, кто не хочет возиться с Tasmota, есть готовые решения от Shelly (Shelly Plug S) или TP-Link Tapo. Они работают из коробки, но дают меньше метрик. Зато быстрее.

3 Программная начинка: что запускать, кроме vLLM

vLLM - стандарт де-факто для эффективного инференса в 2026 году. Но для экспериментов с нейроанатомией нужны специальные инструменты.

llama.cpp - для запуска квантованных версий моделей (GGUF). Если не хватает памяти GPU, часть слоев уходит в RAM. В статье про CPU+RAM инференс есть подробности.
ExLlamaV3 - последняя версия на март 2026, поддерживает новые типы квантования EXL3, которые дают меньшую потерю качества при 3-битном сжатии.
TensorBoard / Weights & Biases - для отслеживания активаций, градиентов и метрик во время экспериментов.
Собственные скрипты на PyTorch - для маппинга нейронов. Маркус использовал технику активационного патчинга, чтобы найти, где модель хранит знания о химических формулах.

Совет: не устанавливайте всё подряд. Используйте Docker или Conda для изоляции сред. Одна несовместимая версия библиотеки - и вы теряете день на отладке.

# Пример запуска Llama 4 405B через vLLM с распределением по двум GPU
# Актуальный синтаксис на март 2026
python -m vllm.entrypoints.openai.api_server \
  --model meta-llama/Llama-4-405B-Instruct \
  --tensor-parallel-size 2 \
  --gpu-memory-utilization 0.95 \
  --max-model-len 8192 \
  --api-key "your_key"

Откуда берётся окупаемость? Не только экономия

Если считать только разницу между облаком и своим железом, точка безубыточности наступает через 6-9 месяцев. Но есть скрытые выгоды:

Нулевая задержка на запуск. В облаке вам нужно разворачивать инстанс, ждать загрузки модели, платить за это время. Локально - модель уже в памяти, эксперимент начинается за 2 секунды.
Полный контроль над безопасностью. Ваши промпты с закрытыми данными никуда не уходят. Для корпоративных исследований это критично. У нас есть кейс, как сэкономить 15 000$ в месяц на токенах с локальным развёртыванием.
Возможность модификации железа. Добавили ещё одну H100? Увеличили RAM до 1TB? В облаке вы ограничены тем, что предлагает провайдер.
Побочный доход. Маркус начал сдавать вычислительные мощности коллегам по лаборатории (вне пиковых часов). Небольшой внутренний billing на 500 евро в месяц покрывает электричество.

Где спрятаны грабли? Ошибки, которые стоят денег

1. Экономия на блоке питания. Дешёвый PSU с плохой эффективностью (80+ Bronze вместо Platinum) за год съест лишние 100-150 евро на электричестве. И может сгореть, утянув за собой материнскую плату.

2. Игнорирование тепловыделения. Один H100 выделяет до 800Вт тепла. Без proper ventilation температура в комнате поднимется до 35°C за час. Кондиционер - must have. Иначе троттлинг GPU снизит производительность на 20%.

3. Неправильный выбор модели LLM. Запуск 405B параметров на двух H100 даёт скорость генерации 5-7 токенов в секунду. Для интерактивной работы медленно. Нужно квантование или выбор меньшей модели. Всегда тестируйте на облачном инстансе перед покупкой железа. Или используйте llama-swap для быстрого переключения между моделями.

4. Отсутствие плана Б. Железо ломается. H100 выходит из строя. Ремонт по гарантии - 2-3 недели. На этот случай нужен доступ к облаку или запасная карта (например, RTX 5090, которая вышла в конце 2025).

Что дальше? AI не стоит на месте

В 2026 году на подходе модели с 1 триллионом параметров, которые требуют не 2, а 8 или 16 GPU для инференса. Стоит ли сейчас вкладываться в две H100? Если ваши эксперименты упираются в вычислительную мощность - да. Если вы только начинаете - возможно, лучше начать с одной карты или даже с аренды, чтобы понять workflow.

Мой прогноз: к концу 2026 года появятся специализированные ASIC для LLM инференса (как Google TPU, но для дома). Они будут потреблять в 3 раза меньше энергии при той же производительности. Но стоимость будет высокой первые пару лет.

Пока же домашний сервер на H100 - это как собственная лаборатория алхимика. Дорого, пахнет озоном, но результаты принадлежат только вам. И через год это железо будет стоить не ноль, а 40-50% от первоначальной цены - спрос на бывшие в употреблении GPU для AI остаётся высоким.

Последний совет: Перед покупкой дорогого железа проведите двухнедельный эксперимент: арендуйте эквивалентный инстанс в облаке и записывайте каждую сессию работы. Сколько часов в день вы реально используете GPU? Какой pattern нагрузки? Эта метрика покажет, нужен ли вам сервер 24/7 или достаточно более слабой конфигурации.

Подписаться на канал

Homelab для LLM: как окупить сервер на H100 за счёт экспериментов с большими моделями