Зачем вам эта сборка? (Спойлер: не для игр)

Вы уже пробовали запускать 70B-модели на двух RTX 3090? Помните этот неприятный свист вентиляторов и тревожный взгляд на утилизацию памяти? 72 ГБ — это хорошо, но недостаточно для комфортной работы с моделями следующего поколения. А облачные инстансы с A100 стоят как аренда квартиры в Москве.

Вот здесь и появляется наша цель: собрать систему, которая не просто «потянет» текущие модели, а даст запас на 2-3 года вперёд. 96 ГБ VRAM — это не магия, а конкретная цифра. Она позволяет загружать модели типа Qwen2.5-72B в полной точности (FP16) с запасом под контекст и систему. И делать это локально, без ежемесячных счетов от AWS.

Важный нюанс: V620 — это не игровая карта. Это профессиональный ускоритель на архитектуре Ampere, но с фокусом на энергоэффективность и память. У неё меньше CUDA-ядер, чем у RTX 4090, но больше VRAM (32 ГБ против 24 ГБ) и лучше поддержка многокарточных конфигураций.

Почему именно три карты, а не четыре? (Математика линий PCIe)

Типичная ошибка новичков — купить материнскую плату с четырьмя слотами PCIe x16 и воткнуть туда четыре карты. Реальность жестока: даже на топовом процессоре AMD Threadripper PRO 7000 WX-series у вас всего 128 линий PCIe 5.0. Разделите их на четыре карты — получите x32 на каждую. Но подождите, это в идеале.

На практике материнские платы редко дают полноценные x16 на все слоты. Чаще схема такая: первый слот — x16, второй — x8, третий и четвёртый — x4 через чипсет. Для LLM инференса ширина шины критична. Модель, разбитая между картами, постоянно обменивается данными. PCIe 4.0 x4 — это 8 ГБ/с в каждую сторону. Мало? Очень.

Три карты — это компромисс между стоимостью и производительностью. Мы можем распределить их так: две карты получают x8 каждая (через процессор), третья — x8 через чипсет. Пропускной способности хватает, а стоимость системы ниже, чем у четырёхкарточной сборки на 30-40%.

Что вам понадобится (и что сломается, если сэкономить)

Компонент	Модель/Требования	Почему именно это	Примерная цена
Видеокарты	NVIDIA V620 32GB GDDR6 (3 шт)	32 ГБ памяти, низкое энергопотребление (до 165W), поддержка NVLink (хотя для LLM не обязательно)	$2,200-2,500 каждая
Материнская плата	ASUS Pro WS WRX90E-SAGE SE	7 слотов PCIe 5.0 x16, поддержка Threadripper PRO, 8 каналов памяти	$800-1,000
Процессор	AMD Ryzen Threadripper PRO 7995WX	128 линий PCIe 5.0, 96 ядер для предобработки данных	$9,500-10,000
Память	DDR5 ECC RDIMM 8×32GB (256GB)	Минимум 256 ГБ для своппинга весов моделей	$1,200-1,500
Блок питания	Seasonic PRIME TX-1600	1600W, 80+ Titanium, достаточно разъёмов PCIe	$400-500
Охлаждение	Кастомный водяной контур или 3× Noctua NF-A12x25 на каждую карту	Три карты вплотную — это 500W тепла. Воздух должен двигаться	$300-800

Общая стоимость? Где-то $20,000-25,000. Да, это не бюджетная сборка. Но сравните с арендой инстанса с 96 ГБ VRAM на AWS — $15-20 в час. За 2000 часов работы (83 дня) вы отобьёте стоимость железа. А оно прослужит 3-4 года.

Не пытайтесь поставить это в обычный корпус. Три двухслотовых карты займут 6 слотов расширения. Нужен полноразмерный корпус серверного типа (например, Fractal Design Meshify 2 XL или Thermaltake Core W200). И да, убедитесь, что у вас есть розетка на 16А — система под нагрузкой может потреблять до 1200W.

1 Сборка: где спрятаны подводные камни

Вы купили всё железо. Коробки распакованы. Что дальше? Не торопитесь вкручивать винты.

Установите процессор и память ДО монтажа платы в корпус. Сокет Threadripper огромный, а рычаг фиксации требует усилия. Делать это в тесном корпусе — гарантированно что-нибудь сломать.
Разместите карты в правильных слотах. На WRX90E-SAGE слоты 1, 3 и 5 дают максимальную пропускную способность. Не ставьте карты в слоты 2 и 4 — они разделяют линии с M.2 накопителями.
Кабели питания — отдельная история. Каждая V620 требует один 8-пиновый разъём PCIe. На блоке питания Seasonic их 8. Отлично? Не совсем. Используйте отдельные кабели для каждой карты, не делите один кабель на две карты. Под нагрузкой 500W по двум картам на одном кабеле — пожарная опасность.
Прокладка кабелей. Оставьте воздушный зазор между картами хотя бы 5-7 мм. Если они будут вплотную, верхняя карта будет перегреваться на 15-20°C выше нижней.

2 Прошивка, драйверы и первая настройка

Включаете систему — и она не загружается. Типично. V620 — профессиональные карты, их UEFI может конфликтовать с материнской платой.

# Загрузка с флешки с Ubuntu 24.04
# В меню загрузки нажмите 'e' для редактирования параметров
# Добавьте в строку ядра:
nomodeset nouveau.modeset=0

Это отключит встроенные драйверы Nouveau. После загрузки:

# Установите драйверы NVIDIA
sudo apt update
sudo apt install -y linux-headers-$(uname -r) build-essential
wget https://us.download.nvidia.com/XFree86/Linux-x86_64/550.90.07/NVIDIA-Linux-x86_64-550.90.07.run
sudo chmod +x NVIDIA-Linux-x86_64-550.90.07.run
sudo ./NVIDIA-Linux-x86_64-550.90.07.run --silent --dkms

Перезагрузитесь. Проверьте, что все три карты видны:

nvidia-smi

Должны увидеть три карты с температурой около 40-50°C в простое. Если одна карта показывает 0°C или не отображается — проверьте физическое подключение.

3 Настройка окружения для LLM

Теперь самое интересное — заставить три карты работать как одна большая память. Вам понадобится одна из двух стратегий:

Tensor Parallelism (TP): Модель разделяется между картами на уровне слоёв. Быстро, но поддерживается не всеми фреймворками.
Pipeline Parallelism (PP): Разные части модели загружаются на разные карты, данные передаются последовательно. Универсально, но добавляет latency.

Для начала установите базовые инструменты:

# Установка PyTorch с поддержкой CUDA 12
pip3 install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu121

# vLLM для эффективного инференса
pip3 install vllm

# ExLlamaV2 для 4-битных моделей
pip3 install exllamav2

💡

Не используйте стандартные методы загрузки моделей типа .to('cuda:0'). Для многокарточных конфигураций нужен явный контроль. В vLLM укажите --tensor-parallel-size 3, в ExLlamaV2 используйте gpu_split=[32,32,32] для равномерного распределения памяти.

Тестирование: что реально можно запустить

Давайте проведём простой тест. Возьмём модель Qwen2.5-72B в формате GPTQ (4-битная) и в полной точности FP16.

# Запуск через vLLM с использованием всех трёх карт
python -m vllm.entrypoints.openai.api_server \
  --model Qwen/Qwen2.5-72B-Instruct-GPTQ-Int4 \
  --tensor-parallel-size 3 \
  --gpu-memory-utilization 0.95 \
  --max-model-len 16384

Модель	Формат	Загрузка VRAM	Токенов/сек	Первая задержка
Qwen2.5-72B	GPTQ-Int4	~45 ГБ	85-110	2.1 сек
Qwen2.5-72B	FP16	~145 ГБ (своп на RAM)	15-25	8.7 сек
MiniMax-M2.1	AWQ	~78 ГБ	40-60	4.3 сек

Видите разницу? 4-битные модели летают. Полная точность — уже с оговорками. 145 ГБ не помещаются в 96 ГБ VRAM, поэтому часть весов уходит в оперативную память. Это замедляет работу в 4-5 раз.

Проблемы, которые вас точно ждут (и как их решить)

Собрать систему — полдела. Заставить её стабильно работать — вот настоящий вызов.

Проблема 1: Неравномерная загрузка памяти

Запускаете модель на трёх картах, а память загружается как 45 ГБ / 40 ГБ / 11 ГБ. Почему? Потому что некоторые фреймворки плохо балансируют нагрузку между картами.

Решение: В ExLlamaV2 явно укажите распределение:

from exllamav2 import ExLlamaV2, ExLlamaV2Config

config = ExLlamaV2Config()
config.model_dir = "/path/to/model"
config.gpu_split = [32, 32, 32]  # По 32 ГБ на каждую карту
config.max_seq_len = 16384

model = ExLlamaV2(config)

Проблема 2: Перегрев нижней карты

Три карты, установленные вплотную. Верхняя обдувается вентиляторами корпуса, средняя получает тёплый воздух от нижней, нижняя задыхается в собственном тепле.

Решение: Установите дополнительные вентиляторы между картами. Или перейдите на водяное охлаждение. Да, это сложно и дорого. Но без этого нижняя карта будет троттлить при 85°C.

Проблема 3: Питание просаживается под нагрузкой

Вы запускаете инференс на всех трёх картах одновременно. Система потребляет 1100W. И внезапно выключается. Блок питания 1600W, вроде бы хватает.

В чём дело: Пиковые нагрузки (power spikes) у V620 могут достигать 200-220% от TDP на доли секунды. Три карты одновременно дают скачок до 1000W. Добавьте процессор, память, накопители — получаете перегрузку по 12V линии.

Решение: В BIOS материнской платы ограничьте мощность карт до 90% TDP. Да, потеряете 5-7% производительности, но получите стабильность. Или купите блок питания на 2000W с запасом.

Альтернативы: может, есть проще?

96 ГБ VRAM звучит круто. Но что если вы не готовы тратить $25,000? Есть варианты:

2× RTX 4090 + 1× eGPU с RTX 4090: Дешевле на $5,000, но сложнее в настройке. Thunderbolt 3 станет бутылочным горлом. Подробнее в нашей статье про сборку ПК с eGPU.
4× RTX 3090 б/у: 96 ГБ за $4,000-5,000. Но карты с майнинга, риск отказа высокий, энергопотребление 350W каждая. Нужен блок питания на 2000W и промышленное охлаждение.
Одна карта с большей памятью: NVIDIA RTX 6000 Ada Generation имеет 48 ГБ. Две таких дадут 96 ГБ. Стоимость? $14,000 за две. Дороже нашей сборки, но проще в настройке.

💡

Если ваш бюджет ограничен $10,000, посмотрите на сборку за $15,000 — там есть компромиссные варианты с 2-3 картами. Или радикальный подход — ферма из 6 б/у карт за $1,500.

Стоит ли игра свеч? (Честный ответ)

Если вы исследователь, который каждый день работает с 70B+ моделями — да. Экономия на облачных расходах окупит систему за год. Плюс полный контроль над окружением, никаких лимитов на использование, возможность тонкой настройки под свои задачи.

Если вы энтузиаст, который хочет «поиграться» с большими моделями по выходным — нет. Арендуйте инстанс на несколько часов в месяц. Стоимость будет в 10 раз ниже.

Главное преимущество этой сборки — не raw производительность, а предсказуемость. Вы знаете, что система всегда доступна. Не зависит от интернета, не имеет квот, не выключится в середине эксперимента.

И последний совет: перед покупкой проверьте, поддерживает ли ваше ПО распределение модели между несколькими картами. Некоторые фреймворки (особенно старые версии Transformers) работают только с одной картой. Убедитесь, что ваш стек технологий готов к 96 ГБ VRAM. Иначе получится как с тем парнем, который купил Ferrari, но ездит только до магазина за углом.

3x NVIDIA V620 на 96 ГБ VRAM: постройка локального монстра для ИИ без компромиссов