Зачем вообще это нужно? (И почему не арендовать в облаке?)
Посчитай. Полноценный инференс 70B-параметровой модели в FP16 требует минимум 36-40GB VRAM. Обучение? Забудь. Аренда одной A100 на 40GB обойдется в $2-3 в час. В месяц – под $2000. За год ты оплатишь два таких сервера, как мы собираем. Но главное – контроль. Никаких лимитов, никаких внезапных изменений тарифов, никаких проблем с доступом к данным. Твой металл, твои правила.
Внимание: это гайд для тех, кто не боится паяльника, командной строки и китайских продавцов на Aliexpress. Если ты ждешь plug-and-play решения – посмотри сборку на RTX 5090. Там проще, но и в 5 раз дороже за те же 64GB VRAM.
Мифы и реальность про V100 SXM2 в 2026 году
V100 – это 2017 год. Да, старье. Но в мире AI железо устаревает не так, как в играх. Тензорные ядра Volta – те же, что и в A100 (третьего поколения против четвертого у H100). Поддержка TF32 и FP16 есть. 64GB HBM2 – пропускная способность 900 ГБ/с. С NVLink 2.0 – до 300 ГБ/с между картами. Это быстрее, чем PCIe 4.0 x16 (32 ГБ/с). Грубо говоря, 4 связанных V100 работают как один большой ускоритель с 64GB памяти.
Почему не RTX 4090? 24GB GDDR6X, нет NVLink. Связь через PCIe – узкое горлышко для моделей с параллельным тензорным распределением. Для инференса 13B моделей хватит, но для 70B или обучения – уже нет. Я подробно разбирал эту проблему в другой статье.
1 Что покупаем: полный список железа и цены
Все цены – на март 2026 года. Источник – Aliexpress и б/у рынок Китая. Риски есть (доставка, гарантия), но экономия в 3-4 раза.
| Компонент | Модель / Спецификация | Примерная цена | Примечания |
|---|---|---|---|
| Материнская плата | ASUS ESC4000 G4 (или аналог на C621 chipset) | $250 | Обязательно с 4 слотами PCIe x16 и поддержкой NVLink bridge |
| Процессор | Intel Xeon Silver 4210 (10 core) или аналогичный | $80 | Нужен для 48+ PCIe линий. Можно взять и дешевле, если найдешь. |
| Оперативная память | 4x32GB DDR4 RDIMM 2666MHz | $120 | Режим ECC важен для стабильности. Не экономь. |
| Графические карты | 4x NVIDIA Tesla V100 SXM2 16GB (или 32GB, но дороже) | $450 | Ключевой компонент. Ищи лоты "4 pcs V100 SXM2". Проверяй состояние (тесты). |
| NVLink Bridge | 2x NVLink Bridge 4-Way для V100 SXM2 | $60 | Без этого – просто 4 отдельные карты. Должны подходить к SXM2 разъему. |
| Блок питания | Серверный БП 1600W+ (или два по 1200W) | $80 | Пиковое потребление 4x V100 – до 1200W. Бери с запасом. |
| Корпус / Шасси | Б/у серверное шасси 4U | $50 | Нужно для охлаждения SXM2 модулей. Иногда идет в комплекте с материнкой. |
| Прочее (кабели, SSD) | NVMe SSD 1TB, кабели питания | $60 | SSD для системы и моделей. |
2 Сборка: физическая часть и первые трудности
SXM2 – это не привычная PCIe карта. Это модуль, который вставляется в специальный слот на материнской плате и фиксируется радиатором. Обычно они идут в комплекте с шасси. Главное – не сломать крепления.
- Установи процессор и память на материнку до монтажа в шасси.
- Аккуратно вставь 4 модуля V100 в слоты SXM2. Они должны защелкнуться.
- Установи два NVLink моста. Они соединяют карты попарно (1 с 2, 3 с 4), а затем между собой. Следи за маркировкой.
- Подключи кабели питания к модулям V100 (обычно это 8-pin или специальный разъем).
- Прикрути систему охлаждения (радиаторы и вентиляторы) поверх модулей. Без этого карты перегреются за 30 секунд.
3 Софт: драйверы, CUDA и магия NVLink
Тут начинается веселье. Нам нужны драйверы, которые поддерживают V100 и NVLink. На 2026 год актуальная ветка – 550.x. Устанавливаем Ubuntu 22.04 LTS или 24.04 LTS.
# Добавляем репозиторий драйверов NVIDIA
curl -fsSL https://nvidia.github.io/libnvidia-container/gpgkey | sudo gpg --dearmor -o /usr/share/keyrings/nvidia-container-toolkit-keyring.gpg
curl -s -L https://nvidia.github.io/libnvidia-container/stable/deb/nvidia-container-toolkit.list | \
sed 's#deb https://#deb [signed-by=/usr/share/keyrings/nvidia-container-toolkit-keyring.gpg] https://#' | \
sudo tee /etc/apt/sources.list.d/nvidia-container-toolkit.list
# Обновляем и ставим драйвер, CUDA toolkit и NVLink утилиты
sudo apt update
sudo apt install -y nvidia-driver-550 nvidia-cuda-toolkit nvidia-utils-550
sudo apt install -y nvidia-nvlink
Перезагружаемся. После загрузки проверяем:
nvidia-smi
# Должны увидеть 4 карты V100
nvidia-smi nvlink --status
# Проверка связи NVLink. Для каждой карты должно быть "Link 0: 25.781250 GB/s, Link 1: 25.781250 GB/s" (или близко). Если 0 GB/s – мосты не распознаны.
Частая ошибка: система видит карты, но NVLink не работает. Причина 1: неправильно установлены мосты (проверь схему в мануале к материнке). Причина 2: в BIOS/UEFI отключена поддержка NVLink (ищи опцию "Above 4G Decoding", "PCIe ARI Support", "NVLink Enable").
4 Настраиваем окружение для моделей: PyTorch, TensorFlow и vLLM
Нам нужен PyTorch с поддержкой CUDA 11.8 (последняя стабильная для V100 с полной поддержкой NVLink). Устанавливаем через pip.
# Создаем виртуальное окружение
python3 -m venv ~/ai_env
source ~/ai_env/bin/activate
# Устанавливаем PyTorch 2.3+ для CUDA 11.8 (актуально на март 2026)
pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu118
# Устанавливаем vLLM для эффективного инференса
pip install vllm
# Или TensorFlow, если нужно
pip install tensorflow==2.15.0
Проверяем, что PyTorch видит все карты и NVLink:
import torch
print(f"PyTorch version: {torch.__version__}")
print(f"CUDA available: {torch.cuda.is_available()}")
print(f"Number of GPUs: {torch.cuda.device_count()}")
# Проверяем NVLink
for i in range(torch.cuda.device_count()):
for j in range(torch.cuda.device_count()):
if i != j:
can_access = torch.cuda.can_device_access_peer(i, j)
print(f"GPU {i} can access GPU {j}: {can_access}")
5 Запускаем большую модель с Tensor Parallelism
Вот ради чего все это. Возьмем модель Llama 3.1 70B (актуальна на 2026 год). Запускаем через vLLM с автоматическим распределением по 4 GPU.
# Запускаем инференс-сервер vLLM
python -m vllm.entrypoints.openai.api_server \
--model meta-llama/Llama-3.1-70B \
--tensor-parallel-size 4 \
--gpu-memory-utilization 0.9 \
--port 8000
# Или используем Ollama, если предпочитаешь (обнови до последней версии)
# Предварительно собери Ollama с поддержкой multi-GPU
OLLAMA_NUM_GPU=4 ollama run llama3.1:70b
Tensor Parallelism разбивает матрицы весов модели на 4 части, каждая грузится в память своей карты. NVLink обеспечивает бешеную скорость обмена данными между ними. Вуаля – 70B модель работает на домашнем сервере. Для сравнения, вот как борются с 30B моделями на другом железе.
Где собака порылась: нюансы, которые никто не рассказывает
- Шум. Серверные вентиляторы на 12 000 оборотов заглушат любой разговор. Ставь в гараж, подвал или собирай тихую систему на десктопных компонентах.
- Электричество. Под нагрузкой система жрет 1.2-1.5 кВт. В месяц – дополнительно $50-100 на электричестве (зависит от тарифа).
- Тепло. Летом в комнате будет +30. Потребуется дополнительное охлаждение.
- Поддержка ПО. Новейшие оптимизации под архитектуру Hopper (H100) или Blackwell (B200) на V100 не работают. Но для инференса и fine-tuning существующих моделей – более чем.
- Резервное копирование. Если одна карта из четверки выйдет из строя, система может не запуститься. Ищи замену на том же Aliexpress.
Что можно делать на таком сервере?
- Локальный ChatGPT: разверни приватный аналог на Llama 3.1 70B или DeepSeek-V3.2 (актуальные на 2026 год). Скорость – 15-20 токенов в секунду.
- Fine-tuning моделей до 30B параметров. С 64GB VRAM можно тренировать с LoRA или full-parameter tuning небольших моделей.
- Генерация изображений: Stable Diffusion 3 или его наследники. 4 карты ускорят обработку батчей.
- Научные расчеты: молекулярное моделирование, анализ данных. Медицинский ИИ тоже можно крутить.
- Хостинг для друзей: подними приватный API и дай доступ коллегам. Инфраструктурные советы здесь.
Частые вопросы (FAQ)
V100 16GB vs 32GB – стоит ли переплачивать?
Для 70B модели в 8-битном квантовании нужно ~36GB. На 4x16GB (64GB) она влезет с Tensor Parallelism. На 4x32GB (128GB) можно запустить 70B в FP16 или даже 120B модели. Но 32GB версии в 2026 году стоят в 2-2.5 раза дороже. Решай, нужны ли тебе такие огромные модели. Для большинства задач хватит 16GB версий.
Можно ли добавить больше 4 карт?
На этой материнке – нет. Максимум 4 слота SXM2. Если хочешь 8 карт, нужна система вроде NVIDIA DGX-1 (оригинальная) или самодельная ферма на PCIe. Но тогда NVLink будет только между парами карт, не между всеми восемью.
Что насчет драйверов для Windows?
Забудь. Серверные карты SXM2 официально не поддерживаются в Windows. Только Linux. Если нужен Windows – собирай на PCIe версиях V100 (они есть, но реже и дороже) или бери RTX 5000 серии.
Этот сервер окупится?
Если ты фрилансер, делающий fine-tuning моделей, или стартап, который не хочет платить за облака – да, за 4-6 месяцев. Если просто для хобби – считай это инвестицией в знания. Ты научишься управляться с multi-GPU системами, NVLink и распределенным inference. Эти навыки стоят дороже железа.
Собирать такой сервер в 2026 году – это как реставрировать классический автомобиль. Новее, быстрее и экономичнее – есть. Но кайф от того, что ты собрал монстра из списанного железа, который гоняет современные модели, – бесценен. И да, когда все побегут за Blackwell, цена на V100 упадет еще сильнее. Может, стоит взять две такие сборки и связать их 100GbE? Но это уже тема для другой истории.