Зачем вам эта боль? Или почему 84 ГБ VRAM в домашнем корпусе — это адреналин
Вы читаете статью о сборке ПК для локальных LLM. Скорее всего, вы уже устали от облачных счетов или от ограничений одной карты. Вы хотите запускать модели 70B+ в FP16, играться с агентами, не думая о своппинге. Проблема проста: VRAM никогда не бывает много. Решение — больше карт.
Но все гайды предлагают или серверные корпуса размером с холодильник, или экзотические eGPU-конструкции. А что если хочется относительно компактную, но монструозную машину? Ту, которая влезет под стол и не будет звучать как взлетающий истребитель? (Спойлер: с тишиной не вышло).
Я запихнул три RTX 3090 и одну RTX 3060 в обычный mid-tower корпус. Итог — 84 ГБ VRAM, температура под контролем и стабильная работа. Вот как я это сделал и какие грабли собрал по пути.
Это не сборка для слабонервных. Здесь есть пайка, модификация корпуса и постоянный риск превратить 500 тысяч рублей в дорогой пресс-папье. Если вы не готовы к такому, посмотрите на бюджетную ферму на X299.
Идея: максимум VRAM на минимальной площади
Логика проста. RTX 3090 — король б/у рынка по соотношению VRAM к цене. 24 ГБ GDDR6X. Три штуки — 72 ГБ. Добавляем RTX 3060 на 12 ГБ не для вычислений, а как дисплейную карту и резерв под легкие задачи. Итого 84 ГБ. Этого хватит, чтобы загнать в память почти любую популярную модель с запасом.
Главный вызов — физика. Три 3090 — это три трехслотовых монстра, выделяющих под 350Вт тепла каждая. Втиснуть их в корпус, да еще и дать им воздух — задача нетривиальная.
1 Выбор компонентов: неочевидные моменты
Здесь каждый компонент влияет на все остальное. Ошибся с корпусом — карты не влезут. Сэкономил на блоке питания — система выключится при пиковой нагрузке.
| Компонент | Модель | Ключевая роль |
|---|---|---|
| Материнская плата | ASUS ROG Strix Z790-E Gaming | 5 слотов PCIe x16 (физически), поддержка PCIe 5.0, хорошая разводка питания. |
| Процессор | Intel Core i7-13700K | Достаточно PCIe линий (20 от CPU + от чипсета), не перегревается как i9. |
| Корпус | Fractal Design Meshify 2 XL | Ширина — ключевой параметр. Нужно 8 слотов расширения минимум. |
| Блок питания | Seasonic PRIME TX-1500 | 1500W, один 12VHPWR коннектор и куча 8-пинов. Тихий и эффективный. |
| Карты | 3x NVIDIA RTX 3090 FE + 1x RTX 3060 | Founders Edition выбраны из-за системы охлаждения с сквозным продувом. |
| Ризеры | PCIe 4.0 x16 Flexible Riser (20cm) | 3 штуки. Без них ничего не работает. |
2 Сборка: танцы с ризерами и болгаркой
Стандартная установка карт в слоты невозможна. Они физически перекрывают друг друга. Решение — вертикальное крепление с помощью ризеров. Но в этом корпусе штатные вертикальные слоты не подходят — не хватает места.
Что я сделал:
- Снял все штатные слоты расширения с корпуса.
- Используя металлические уголки и стойки от старого корпуса, создал самодельную раму для крепления трех 3090 вертикально, одна над другой.
- RTX 3060 установил в самый нижний стандартный горизонтальный слот — она тонкая и не мешает.
- Ризеры аккуратно проложил за материнской платой и зафиксировал стяжками.
Ошибка номер один: не покупайте дешевые ризеры на AliExpress. Я купил. Система не заводилась, были ошибки PCIe. Потратил еще неделю на диагностику. Берите проверенные бренды типа LinkUp.
3 Охлаждение: когда вентиляторов много не бывает
Три 3090 вплотную — это тепловая завеса. Система охлаждения Founders Edition (с вентилятором с одной стороны и сквозным обдувом) здесь критически важна. Я установил карты так, чтобы вентилируемая сторона одной была обращена к тыльной стороне другой, создавая подобие воздушного коридора.
Дополнительно:
- Установил 6 корпусных вентиляторов Noctua NF-A14: 3 на вдув спереди, 3 на выдув сверху и сзади.
- Настроил в BIOS кривую вентиляторов, привязанную к температуре самой горячей карты (через софт).
- Заменил термопасту на всех 3090 на Thermal Grizzly Kryonaut. Да, это страшно, но температура упала на 5-7 градусов.
# Простая проверка температуры в Linux
nvidia-smi --query-gpu=temperature.gpu --format=csv,noheader
# Или мониторинг в реальном времени
watch -n 2 nvidia-smi
В нагрузке (инференс Qwen2.5-72B) верхняя карта достигает 78°C, средняя — 74°C, нижняя — 70°C. Это приемлемо. Без модификаций было за 90°C и троттлинг.
4 Питание: игра с кабелями
Блок питания на 1500W — must-have. Пиковое потребление системы около 1300W. Но важно не только количество ватт, но и кабели.
У каждой 3090 — два 8-пиновых коннектора. Итого 6 кабелей только для них. Плюс питание материнки, процессора. Кабельный менеджмент превращается в кошмар.
Решение:
- Использовал комплектные кабели Seasonic. Они качественные и жесткие.
- Купил набор кабельных гребенок, чтобы стянуть жгут за материнской платой.
- Ни в коем случае не используйте разветвители (splitters) на 8-пиновые коннекторы GPU. Каждый кабель должен идти от отдельного разъема на БП.
Настройка ПО: драйверы, CUDA и первые слезы
Железо собрано. Включаю. POST-экран есть. Ура! Загрузка Windows... и синий экран. Классика.
Проблема была в настройках BIOS. Для работы нескольких GPU через ризеры нужно:
- Выставить режим PCIe: Gen4 (или Gen3, если ризеры не поддерживают Gen4).
- Отключить CSM (Compatibility Support Module).
- Включить Above 4G Decoding. Без этого система не увидит все карты.
После этого Windows загрузилась. Установил драйверы NVIDIA. Важный момент — стабильность. Я остановился на драйвере версии 545.xx. Более новые вызывали артефакты при полной нагрузке.
Тесты и реальная производительность
Цель — запуск больших моделей. Протестировал на ExLlamaV2.
# Пример запуска теста
python launch_exllamav2.py --model Mistral-7B --gpu-split 24,24,24,12
Скорость генерации для модели 70B параметров в 4-битном квантовании — около 15 токенов в секунду. В FP16 — около 5 токенов в секунду. Это хороший результат для локальной машины. Главное — модель полностью помещается в VRAM, никакого свопа.
Сравнивать с облачными инстансами бессмысленно. Эта сборка — о контроле. Вы не зависите от аптайма AWS и можете хоть круглосуточно гонять инференс, не глядя на счетчик.
Ошибки, которые вас настигнут (и как их избежать)
- Недооценка тепловыделения. Без дополнительных вентиляторов карты будут перегреваться. Рассчитывайте на минимум 10 корпусных вентиляторов для такой конфигурации.
- Экономия на блоке питания. 1500W — это минимум. Лучше взять с запасом. Посмотрите гайд за $15 000 — там подробно разобраны требования к питанию.
- Игнорирование PCIe линий. На материнской плате слоты могут делить линии. Убедитесь, что карты работают хотя бы в режиме PCIe x8. Иначе будет бутылочное горло. Мои карты через ризеры работают в x8/x8/x8/x4.
- Слепая вера в драйверы. Всегда тестируйте стабильность на разных версиях. Драйвер для игр и для вычислений — это два разных драйвера.
Стоило ли оно того?
Да. Абсолютно. Эта машина — мой полигон для экспериментов. Я могу запускать несколько моделей параллельно, тестировать агентные цепочки, не думая о лимитах.
Но если вы только начинаете, не повторяйте этот подвиг. Начните с одной 4090 или с конфигурации 3× RTX 3090 и eGPU. Это проще и дешевле.
Моя сборка — это крайность. Красивая, горячая, шумная крайность. Но когда она выдает 84 ГБ VRAM на столе, все трудности забываются.
Частые вопросы (FAQ)
| Вопрос | Ответ |
|---|---|
| Почему не 4x3090? | Не хватило физического места в корпусе и линий PCIe на потребительской плате. Для 4 карт нужна серверная платформа. |
| Какой монитор подключен? | К RTX 3060. Это освобождает основные 3090 для вычислений и избегает проблем с драйверами. |
| Можно ли так собрать на AMD? | Можно, но у AMD процессоров больше PCIe линий. Однако, поддержка ROCm для LLM все еще хуже, чем CUDA. |
| Стоит ли разгонять карты? | Нет. Для LLM инференса важна стабильность, а не частота ядра. Лучше undervolting для снижения температуры. |
Последний совет: перед пайкой и резкой корпуса убедитесь, что у вас есть огнетушитель. Шучу. Но только отчасти.