Зачем вообще это нужно? (И почему не арендовать в облаке?)

Посчитай. Полноценный инференс 70B-параметровой модели в FP16 требует минимум 36-40GB VRAM. Обучение? Забудь. Аренда одной A100 на 40GB обойдется в $2-3 в час. В месяц – под $2000. За год ты оплатишь два таких сервера, как мы собираем. Но главное – контроль. Никаких лимитов, никаких внезапных изменений тарифов, никаких проблем с доступом к данным. Твой металл, твои правила.

Внимание: это гайд для тех, кто не боится паяльника, командной строки и китайских продавцов на Aliexpress. Если ты ждешь plug-and-play решения – посмотри сборку на RTX 5090. Там проще, но и в 5 раз дороже за те же 64GB VRAM.

Мифы и реальность про V100 SXM2 в 2026 году

V100 – это 2017 год. Да, старье. Но в мире AI железо устаревает не так, как в играх. Тензорные ядра Volta – те же, что и в A100 (третьего поколения против четвертого у H100). Поддержка TF32 и FP16 есть. 64GB HBM2 – пропускная способность 900 ГБ/с. С NVLink 2.0 – до 300 ГБ/с между картами. Это быстрее, чем PCIe 4.0 x16 (32 ГБ/с). Грубо говоря, 4 связанных V100 работают как один большой ускоритель с 64GB памяти.

Почему не RTX 4090? 24GB GDDR6X, нет NVLink. Связь через PCIe – узкое горлышко для моделей с параллельным тензорным распределением. Для инференса 13B моделей хватит, но для 70B или обучения – уже нет. Я подробно разбирал эту проблему в другой статье.

1 Что покупаем: полный список железа и цены

Все цены – на март 2026 года. Источник – Aliexpress и б/у рынок Китая. Риски есть (доставка, гарантия), но экономия в 3-4 раза.

Компонент	Модель / Спецификация	Примерная цена	Примечания
Материнская плата	ASUS ESC4000 G4 (или аналог на C621 chipset)	$250	Обязательно с 4 слотами PCIe x16 и поддержкой NVLink bridge
Процессор	Intel Xeon Silver 4210 (10 core) или аналогичный	$80	Нужен для 48+ PCIe линий. Можно взять и дешевле, если найдешь.
Оперативная память	4x32GB DDR4 RDIMM 2666MHz	$120	Режим ECC важен для стабильности. Не экономь.
Графические карты	4x NVIDIA Tesla V100 SXM2 16GB (или 32GB, но дороже)	$450	Ключевой компонент. Ищи лоты "4 pcs V100 SXM2". Проверяй состояние (тесты).
NVLink Bridge	2x NVLink Bridge 4-Way для V100 SXM2	$60	Без этого – просто 4 отдельные карты. Должны подходить к SXM2 разъему.
Блок питания	Серверный БП 1600W+ (или два по 1200W)	$80	Пиковое потребление 4x V100 – до 1200W. Бери с запасом.
Корпус / Шасси	Б/у серверное шасси 4U	$50	Нужно для охлаждения SXM2 модулей. Иногда идет в комплекте с материнкой.
Прочее (кабели, SSD)	NVMe SSD 1TB, кабели питания	$60	SSD для системы и моделей.

💡

Где искать? Ключевые слова на Aliexpress: "Tesla V100 SXM2 16G", "NVLink bridge V100", "C621 motherboard server". Общайся с продавцом через чат, проси видео с тестом карт (например, запуск nvidia-smi). Риск получить битую карту есть, но крупные продавцы с рейтингом 98%+ обычно надежны. Если бюджет позволяет, можно взять готовый комплект, но выйдет дороже.

2 Сборка: физическая часть и первые трудности

SXM2 – это не привычная PCIe карта. Это модуль, который вставляется в специальный слот на материнской плате и фиксируется радиатором. Обычно они идут в комплекте с шасси. Главное – не сломать крепления.

Установи процессор и память на материнку до монтажа в шасси.
Аккуратно вставь 4 модуля V100 в слоты SXM2. Они должны защелкнуться.
Установи два NVLink моста. Они соединяют карты попарно (1 с 2, 3 с 4), а затем между собой. Следи за маркировкой.
Подключи кабели питания к модулям V100 (обычно это 8-pin или специальный разъем).
Прикрути систему охлаждения (радиаторы и вентиляторы) поверх модулей. Без этого карты перегреются за 30 секунд.

3 Софт: драйверы, CUDA и магия NVLink

Тут начинается веселье. Нам нужны драйверы, которые поддерживают V100 и NVLink. На 2026 год актуальная ветка – 550.x. Устанавливаем Ubuntu 22.04 LTS или 24.04 LTS.

# Добавляем репозиторий драйверов NVIDIA
curl -fsSL https://nvidia.github.io/libnvidia-container/gpgkey | sudo gpg --dearmor -o /usr/share/keyrings/nvidia-container-toolkit-keyring.gpg
curl -s -L https://nvidia.github.io/libnvidia-container/stable/deb/nvidia-container-toolkit.list | \
  sed 's#deb https://#deb [signed-by=/usr/share/keyrings/nvidia-container-toolkit-keyring.gpg] https://#' | \
  sudo tee /etc/apt/sources.list.d/nvidia-container-toolkit.list

# Обновляем и ставим драйвер, CUDA toolkit и NVLink утилиты
sudo apt update
sudo apt install -y nvidia-driver-550 nvidia-cuda-toolkit nvidia-utils-550
sudo apt install -y nvidia-nvlink

Перезагружаемся. После загрузки проверяем:

nvidia-smi
# Должны увидеть 4 карты V100

nvidia-smi nvlink --status
# Проверка связи NVLink. Для каждой карты должно быть "Link 0: 25.781250 GB/s, Link 1: 25.781250 GB/s" (или близко). Если 0 GB/s – мосты не распознаны.

Частая ошибка: система видит карты, но NVLink не работает. Причина 1: неправильно установлены мосты (проверь схему в мануале к материнке). Причина 2: в BIOS/UEFI отключена поддержка NVLink (ищи опцию "Above 4G Decoding", "PCIe ARI Support", "NVLink Enable").

4 Настраиваем окружение для моделей: PyTorch, TensorFlow и vLLM

Нам нужен PyTorch с поддержкой CUDA 11.8 (последняя стабильная для V100 с полной поддержкой NVLink). Устанавливаем через pip.

# Создаем виртуальное окружение
python3 -m venv ~/ai_env
source ~/ai_env/bin/activate

# Устанавливаем PyTorch 2.3+ для CUDA 11.8 (актуально на март 2026)
pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu118

# Устанавливаем vLLM для эффективного инференса
pip install vllm

# Или TensorFlow, если нужно
pip install tensorflow==2.15.0

Проверяем, что PyTorch видит все карты и NVLink:

import torch
print(f"PyTorch version: {torch.__version__}")
print(f"CUDA available: {torch.cuda.is_available()}")
print(f"Number of GPUs: {torch.cuda.device_count()}")

# Проверяем NVLink
for i in range(torch.cuda.device_count()):
    for j in range(torch.cuda.device_count()):
        if i != j:
            can_access = torch.cuda.can_device_access_peer(i, j)
            print(f"GPU {i} can access GPU {j}: {can_access}")

5 Запускаем большую модель с Tensor Parallelism

Вот ради чего все это. Возьмем модель Llama 3.1 70B (актуальна на 2026 год). Запускаем через vLLM с автоматическим распределением по 4 GPU.

# Запускаем инференс-сервер vLLM
python -m vllm.entrypoints.openai.api_server \
  --model meta-llama/Llama-3.1-70B \
  --tensor-parallel-size 4 \
  --gpu-memory-utilization 0.9 \
  --port 8000

# Или используем Ollama, если предпочитаешь (обнови до последней версии)
# Предварительно собери Ollama с поддержкой multi-GPU
OLLAMA_NUM_GPU=4 ollama run llama3.1:70b

Tensor Parallelism разбивает матрицы весов модели на 4 части, каждая грузится в память своей карты. NVLink обеспечивает бешеную скорость обмена данными между ними. Вуаля – 70B модель работает на домашнем сервере. Для сравнения, вот как борются с 30B моделями на другом железе.

Где собака порылась: нюансы, которые никто не рассказывает

Шум. Серверные вентиляторы на 12 000 оборотов заглушат любой разговор. Ставь в гараж, подвал или собирай тихую систему на десктопных компонентах.
Электричество. Под нагрузкой система жрет 1.2-1.5 кВт. В месяц – дополнительно $50-100 на электричестве (зависит от тарифа).
Тепло. Летом в комнате будет +30. Потребуется дополнительное охлаждение.
Поддержка ПО. Новейшие оптимизации под архитектуру Hopper (H100) или Blackwell (B200) на V100 не работают. Но для инференса и fine-tuning существующих моделей – более чем.
Резервное копирование. Если одна карта из четверки выйдет из строя, система может не запуститься. Ищи замену на том же Aliexpress.

Что можно делать на таком сервере?

Локальный ChatGPT: разверни приватный аналог на Llama 3.1 70B или DeepSeek-V3.2 (актуальные на 2026 год). Скорость – 15-20 токенов в секунду.
Fine-tuning моделей до 30B параметров. С 64GB VRAM можно тренировать с LoRA или full-parameter tuning небольших моделей.
Генерация изображений: Stable Diffusion 3 или его наследники. 4 карты ускорят обработку батчей.
Научные расчеты: молекулярное моделирование, анализ данных. Медицинский ИИ тоже можно крутить.
Хостинг для друзей: подними приватный API и дай доступ коллегам. Инфраструктурные советы здесь.

💡

Альтернатива для смелых: вместо V100 можно взять 4x Tesla P100 16GB. Они PCIe, дешевле (около $80 за штуку), но нет тензорных ядер и NVLink. Производительность в LLM задачах будет в 3-4 раза ниже. Гайд по сборке на P100 есть тут.

Частые вопросы (FAQ)

V100 16GB vs 32GB – стоит ли переплачивать?

Для 70B модели в 8-битном квантовании нужно ~36GB. На 4x16GB (64GB) она влезет с Tensor Parallelism. На 4x32GB (128GB) можно запустить 70B в FP16 или даже 120B модели. Но 32GB версии в 2026 году стоят в 2-2.5 раза дороже. Решай, нужны ли тебе такие огромные модели. Для большинства задач хватит 16GB версий.

Можно ли добавить больше 4 карт?

На этой материнке – нет. Максимум 4 слота SXM2. Если хочешь 8 карт, нужна система вроде NVIDIA DGX-1 (оригинальная) или самодельная ферма на PCIe. Но тогда NVLink будет только между парами карт, не между всеми восемью.

Что насчет драйверов для Windows?

Забудь. Серверные карты SXM2 официально не поддерживаются в Windows. Только Linux. Если нужен Windows – собирай на PCIe версиях V100 (они есть, но реже и дороже) или бери RTX 5000 серии.

Этот сервер окупится?

Если ты фрилансер, делающий fine-tuning моделей, или стартап, который не хочет платить за облака – да, за 4-6 месяцев. Если просто для хобби – считай это инвестицией в знания. Ты научишься управляться с multi-GPU системами, NVLink и распределенным inference. Эти навыки стоят дороже железа.

Собирать такой сервер в 2026 году – это как реставрировать классический автомобиль. Новее, быстрее и экономичнее – есть. Но кайф от того, что ты собрал монстра из списанного железа, который гоняет современные модели, – бесценен. И да, когда все побегут за Blackwell, цена на V100 упадет еще сильнее. Может, стоит взять две такие сборки и связать их 100GbE? Но это уже тема для другой истории.

Подписаться на канал

Собираем домашний AI-сервер на 4x V100 с NVLink за $1100: полное руководство по железу и софту