Зачем вам эта боль? Или почему 84 ГБ VRAM в домашнем корпусе — это адреналин

Вы читаете статью о сборке ПК для локальных LLM. Скорее всего, вы уже устали от облачных счетов или от ограничений одной карты. Вы хотите запускать модели 70B+ в FP16, играться с агентами, не думая о своппинге. Проблема проста: VRAM никогда не бывает много. Решение — больше карт.

Но все гайды предлагают или серверные корпуса размером с холодильник, или экзотические eGPU-конструкции. А что если хочется относительно компактную, но монструозную машину? Ту, которая влезет под стол и не будет звучать как взлетающий истребитель? (Спойлер: с тишиной не вышло).

Я запихнул три RTX 3090 и одну RTX 3060 в обычный mid-tower корпус. Итог — 84 ГБ VRAM, температура под контролем и стабильная работа. Вот как я это сделал и какие грабли собрал по пути.

Это не сборка для слабонервных. Здесь есть пайка, модификация корпуса и постоянный риск превратить 500 тысяч рублей в дорогой пресс-папье. Если вы не готовы к такому, посмотрите на бюджетную ферму на X299.

Идея: максимум VRAM на минимальной площади

Логика проста. RTX 3090 — король б/у рынка по соотношению VRAM к цене. 24 ГБ GDDR6X. Три штуки — 72 ГБ. Добавляем RTX 3060 на 12 ГБ не для вычислений, а как дисплейную карту и резерв под легкие задачи. Итого 84 ГБ. Этого хватит, чтобы загнать в память почти любую популярную модель с запасом.

Главный вызов — физика. Три 3090 — это три трехслотовых монстра, выделяющих под 350Вт тепла каждая. Втиснуть их в корпус, да еще и дать им воздух — задача нетривиальная.

1 Выбор компонентов: неочевидные моменты

Здесь каждый компонент влияет на все остальное. Ошибся с корпусом — карты не влезут. Сэкономил на блоке питания — система выключится при пиковой нагрузке.

Компонент	Модель	Ключевая роль
Материнская плата	ASUS ROG Strix Z790-E Gaming	5 слотов PCIe x16 (физически), поддержка PCIe 5.0, хорошая разводка питания.
Процессор	Intel Core i7-13700K	Достаточно PCIe линий (20 от CPU + от чипсета), не перегревается как i9.
Корпус	Fractal Design Meshify 2 XL	Ширина — ключевой параметр. Нужно 8 слотов расширения минимум.
Блок питания	Seasonic PRIME TX-1500	1500W, один 12VHPWR коннектор и куча 8-пинов. Тихий и эффективный.
Карты	3x NVIDIA RTX 3090 FE + 1x RTX 3060	Founders Edition выбраны из-за системы охлаждения с сквозным продувом.
Ризеры	PCIe 4.0 x16 Flexible Riser (20cm)	3 штуки. Без них ничего не работает.

💡

Почему не серверная плата? Потому что я хотел сохранить возможность использовать ПК для других задач. Да, Supermicro прекращает продажи, да, цены взлетели. Но потребительская плата с правильной конфигурацией — рабочий вариант.

2 Сборка: танцы с ризерами и болгаркой

Стандартная установка карт в слоты невозможна. Они физически перекрывают друг друга. Решение — вертикальное крепление с помощью ризеров. Но в этом корпусе штатные вертикальные слоты не подходят — не хватает места.

Что я сделал:

Снял все штатные слоты расширения с корпуса.
Используя металлические уголки и стойки от старого корпуса, создал самодельную раму для крепления трех 3090 вертикально, одна над другой.
RTX 3060 установил в самый нижний стандартный горизонтальный слот — она тонкая и не мешает.
Ризеры аккуратно проложил за материнской платой и зафиксировал стяжками.

Ошибка номер один: не покупайте дешевые ризеры на AliExpress. Я купил. Система не заводилась, были ошибки PCIe. Потратил еще неделю на диагностику. Берите проверенные бренды типа LinkUp.

3 Охлаждение: когда вентиляторов много не бывает

Три 3090 вплотную — это тепловая завеса. Система охлаждения Founders Edition (с вентилятором с одной стороны и сквозным обдувом) здесь критически важна. Я установил карты так, чтобы вентилируемая сторона одной была обращена к тыльной стороне другой, создавая подобие воздушного коридора.

Дополнительно:

Установил 6 корпусных вентиляторов Noctua NF-A14: 3 на вдув спереди, 3 на выдув сверху и сзади.
Настроил в BIOS кривую вентиляторов, привязанную к температуре самой горячей карты (через софт).
Заменил термопасту на всех 3090 на Thermal Grizzly Kryonaut. Да, это страшно, но температура упала на 5-7 градусов.

# Простая проверка температуры в Linux
nvidia-smi --query-gpu=temperature.gpu --format=csv,noheader
# Или мониторинг в реальном времени
watch -n 2 nvidia-smi

В нагрузке (инференс Qwen2.5-72B) верхняя карта достигает 78°C, средняя — 74°C, нижняя — 70°C. Это приемлемо. Без модификаций было за 90°C и троттлинг.

4 Питание: игра с кабелями

Блок питания на 1500W — must-have. Пиковое потребление системы около 1300W. Но важно не только количество ватт, но и кабели.

У каждой 3090 — два 8-пиновых коннектора. Итого 6 кабелей только для них. Плюс питание материнки, процессора. Кабельный менеджмент превращается в кошмар.

Решение:

Использовал комплектные кабели Seasonic. Они качественные и жесткие.
Купил набор кабельных гребенок, чтобы стянуть жгут за материнской платой.
Ни в коем случае не используйте разветвители (splitters) на 8-пиновые коннекторы GPU. Каждый кабель должен идти от отдельного разъема на БП.

💡

Если вы собираете что-то похожее, сначала прочитайте разбор кейса с 8× RTX 3090. Там описаны системные проблемы стабильности, которые возникают при масштабировании.

Настройка ПО: драйверы, CUDA и первые слезы

Железо собрано. Включаю. POST-экран есть. Ура! Загрузка Windows... и синий экран. Классика.

Проблема была в настройках BIOS. Для работы нескольких GPU через ризеры нужно:

Выставить режим PCIe: Gen4 (или Gen3, если ризеры не поддерживают Gen4).
Отключить CSM (Compatibility Support Module).
Включить Above 4G Decoding. Без этого система не увидит все карты.

После этого Windows загрузилась. Установил драйверы NVIDIA. Важный момент — стабильность. Я остановился на драйвере версии 545.xx. Более новые вызывали артефакты при полной нагрузке.

Тесты и реальная производительность

Цель — запуск больших моделей. Протестировал на ExLlamaV2.

# Пример запуска теста
python launch_exllamav2.py --model Mistral-7B --gpu-split 24,24,24,12

Скорость генерации для модели 70B параметров в 4-битном квантовании — около 15 токенов в секунду. В FP16 — около 5 токенов в секунду. Это хороший результат для локальной машины. Главное — модель полностью помещается в VRAM, никакого свопа.

Сравнивать с облачными инстансами бессмысленно. Эта сборка — о контроле. Вы не зависите от аптайма AWS и можете хоть круглосуточно гонять инференс, не глядя на счетчик.

Ошибки, которые вас настигнут (и как их избежать)

Недооценка тепловыделения. Без дополнительных вентиляторов карты будут перегреваться. Рассчитывайте на минимум 10 корпусных вентиляторов для такой конфигурации.
Экономия на блоке питания. 1500W — это минимум. Лучше взять с запасом. Посмотрите гайд за $15 000 — там подробно разобраны требования к питанию.
Игнорирование PCIe линий. На материнской плате слоты могут делить линии. Убедитесь, что карты работают хотя бы в режиме PCIe x8. Иначе будет бутылочное горло. Мои карты через ризеры работают в x8/x8/x8/x4.
Слепая вера в драйверы. Всегда тестируйте стабильность на разных версиях. Драйвер для игр и для вычислений — это два разных драйвера.

Стоило ли оно того?

Да. Абсолютно. Эта машина — мой полигон для экспериментов. Я могу запускать несколько моделей параллельно, тестировать агентные цепочки, не думая о лимитах.

Но если вы только начинаете, не повторяйте этот подвиг. Начните с одной 4090 или с конфигурации 3× RTX 3090 и eGPU. Это проще и дешевле.

Моя сборка — это крайность. Красивая, горячая, шумная крайность. Но когда она выдает 84 ГБ VRAM на столе, все трудности забываются.

Частые вопросы (FAQ)

Вопрос	Ответ
Почему не 4x3090?	Не хватило физического места в корпусе и линий PCIe на потребительской плате. Для 4 карт нужна серверная платформа.
Какой монитор подключен?	К RTX 3060. Это освобождает основные 3090 для вычислений и избегает проблем с драйверами.
Можно ли так собрать на AMD?	Можно, но у AMD процессоров больше PCIe линий. Однако, поддержка ROCm для LLM все еще хуже, чем CUDA.
Стоит ли разгонять карты?	Нет. Для LLM инференса важна стабильность, а не частота ядра. Лучше undervolting для снижения температуры.

Последний совет: перед пайкой и резкой корпуса убедитесь, что у вас есть огнетушитель. Шучу. Но только отчасти.

Сборка мощной рабочей станции для локальных LLM: личный опыт с 3x3090 и 3060 в mid-tower корпусе