Бюджетный ПК для LLM: 3 RTX 3090 + eGPU на 96 ГБ VRAM

Проблема: Дорого, а хочется много VRAM

Каждый, кто погружался в мир локальных языковых моделей (LLM), сталкивался с одной и той же стеной: ограничение видеопамяти (VRAM). Современные модели вроде MiniMax-M2.1 или GLM 4.7 требуют десятки гигабайт для комфортной работы. Промышленные решения вроде NVIDIA H100 или даже RTX 4090 стоят как хорошая иномарка. Сообщество задыхается: эксперименты стоят слишком дорого.

Ключевая мысль: Для инференса LLM критически важна не столько вычислительная мощность (TFLOPS), сколько объём VRAM и пропускная способность памяти. Именно это позволяет загружать большие модели целиком, избегая медленного свопа на SSD.

Вот и возникает идея: а что, если собрать систему не на одной дорогой карте, а на нескольких старых, но с огромной памятью? RTX 3090 с её 24 ГБ GDDR6X — идеальный кандидат. На вторичном рынке её можно найти за относительно небольшие деньги. Но как запихнуть 3, а то и 4 такие карты в один ПК, да ещё и обеспечить их нормальной полосой PCIe?

Решение: Гибридная сборка на базе eGPU

Классический путь — материнская плата с 4-5 слотами PCIe x16. Проблема в том, что даже на топовых чипсетах (X670, Z790) реальных линий PCIe 4.0/5.0 от процессора ограниченное количество. При установке 4 карт они будут работать в режиме x4/x4/x4/x4, что создаёт серьёзное бутылочное горло для обмена данными между картами, критичное для таких фреймворков, как vLLM или ExLlamaV2.

💡

Наш подход — гибридный. Две RTX 3090 устанавливаются напрямую в материнскую плату (получая x8/x8 линий), а третья (или даже четвёртая) подключается через внешний бокс eGPU (Thunderbolt 3/4 или USB4). Это позволяет обойти ограничения линий PCIe на материнке и использовать более дешёвые системные платы.

Итоговая конфигурация: 3× RTX 3090 = 72 ГБ VRAM. Если добавить eGPU-бокс, поддерживающий две карты (например, Razer Core X Chroma с модификацией), можно выйти на 96 ГБ VRAM. Этого хватит, чтобы запускать мощные модели вроде MiniMax-M2.1 или работать над сложными агентными workflow без оглядки на облако.

Пошаговый план сборки

1 Выбор компонентов: сердце системы

Начнём с основы. Нам не нужен игровой монстр, нам нужна стабильная платформа с хорошей поддержкой PCIe линий.

Компонент	Рекомендация	Обоснование
Материнская плата	ASUS ProArt B650-CREATOR или аналог с 2× PCIe x16	Поддержка PCIe 4.0/5.0, хорошая разводка питания, 2.5G LAN. Важно: наличие Thunderbolt 4/USB4 для eGPU.
Процессор	AMD Ryzen 9 7900X или 7950X	24/32 линии PCIe 5.0 от процессора. Для двух карт в слотах — режим x8/x8. Ядер хватит для предобработки данных.
Оперативная память	64 ГБ DDR5 (2×32 ГБ) 6000 МГц CL30	Dual-channel, низкие тайминги. Системная память используется для кэширования, если модель не помещается целиком в VRAM.
Блок питания	1200-1600 Вт 80+ Platinum (Seasonic, Corsair)	Пиковая мощность одной RTX 3090 — до 450 Вт. Запас по мощности критичен для стабильности.
RTX 3090	3 штуки, б/у с проверкой	Ищем карты с хорошей системой охлаждения (3-слотовые). Обязательно тестируем на майнинг-нагрузку.
eGPU бокс	Razer Core X Chroma (или самодельный на базе R43SG)	Должен поддерживать карты полной длины и иметь БП не менее 1000 Вт для двух карт.

2 Сборка и подключение: внимание к деталям

Сборка основного ПК: Установите процессор, память, две RTX 3090 в слоты PCIe. Используйте мощные райзеры (PCIe 4.0 x16) если карты не помещаются. Подключите питание PCIe отдельными кабелями от БП (не используйте splitter!).
Подготовка eGPU: Установите третью (и четвёртую) RTX 3090 в бокс eGPU. Для самодельного бокса на базе адаптера R43SG (PCIe x16 to Thunderbolt 3) убедитесь в надёжном креплении и охлаждении.
Соединение: Подключите eGPU-бокс к материнской плате через кабель Thunderbolt 4/USB4. Убедитесь, что в BIOS/UEFI включена поддержка Thunderbolt и установлены все драйверы.
Охлаждение: Три RTX 3090 в нагрузке выделяют >1000 Вт тепла. Обязателен корпус с отличной вентиляцией (например, Fractal Design Meshify 2 XL) и дополнительными вентиляторами на вдув.

3 Настройка ПО: от драйверов до фреймворков

Аппаратная часть — только половина дела. Правильная программная настройка раскроет потенциал системы.

# 1. Установите последние драйверы NVIDIA и CUDA Toolkit
wget https://developer.download.nvidia.com/compute/cuda/repos/ubuntu2204/x86_64/cuda-keyring_1.1-1_all.deb
sudo dpkg -i cuda-keyring_1.1-1_all.deb
sudo apt-get update
sudo apt-get -y install cuda-toolkit-12-4

# 2. Проверьте видимость всех карт
nvidia-smi
# Должны увидеть 3 (или 4) GPU с корректными названиями и температурой.

# 3. Установите и настройте фреймворк для LLM, например, Text Generation WebUI (oobabooga)
cd ~
git clone https://github.com/oobabooga/text-generation-webui
cd text-generation-webui
./start_linux.sh --gpu-memory 24 24 24 # Резервируем по 24 ГБ на каждой карте

Для распределения модели по нескольким GPU используйте квантование (GPTQ, AWQ) или нативные возможности фреймворков. Например, в Llama.cpp можно указать, какие слои модели на какую карту загружать.

# Пример запуска модели с распределением по 3 GPU в llama.cpp
./main -m ./models/mymodel.gguf -ngl 100 --tensor-split 24,24,24 -n 512

💡

Используйте NVLink (мост между двумя RTX 3090), если ваши карты и материнская плата поддерживают это. NVLink значительно ускоряет обмен данными между картами, что критично для больших моделей, но не работает через eGPU.

Нюансы и частые ошибки

Проблема с PCIe Lanes: Самая частая ошибка — попытка поставить 3 карты в материнскую плату с 16+4+4 линиями. Третья карта будет работать в режиме x4, что убьёт производительность. Решение — eGPU.
Недостаток питания: Блок питания 850 Вт не потянет 3× RTX 3090. При пиковой нагрузке система будет уходить в защиту. Берите с запасом.
Перегрев: Карты, бывшие в майнинге, часто имеют убитую термопасту. Обязательно замените её, а также прокладки VRAM. Мониторьте температуру памяти (junction temperature) через HWiNFO64.
Проблемы с eGPU в Windows/Linux: В Windows могут быть конфликты драйверов. В Linux (Ubuntu 22.04+) поддержка Thunderbolt улучшилась, но может потребоваться ручная настройка в BIOS и установка bolt. Проверяйте соединение до покупки.
Совместимость ПО: Не все фреймворки LLM одинаково хорошо работают с несколькими GPU, особенно с разными «путами» (PCIe vs eGPU). Тестируйте на конкретных задачах, например, автономном кодинге.

FAQ: Ответы на главные вопросы

Вопрос: Почему именно RTX 3090, а не 4090?

Ответ: Соотношение цены к объёму VRAM. Б/у RTX 3090 стоит в 2-3 раза дешевле новой RTX 4090, при этом даёт те же 24 ГБ. Для LLM важнее память, а не абсолютная скорость FP32.

Вопрос: Насколько медленнее eGPU по сравнению с прямым PCIe?

Ответ: Thunderbolt 3/4 даёт пропускную способность, эквивалентную PCIe 3.0 x4. Это создаёт задержку при обмене данными между картой в eGPU и системой. Однако для инференса, когда модель загружена в VRAM и обмен минимален, это влияние может быть незначительным (5-15% в зависимости от задачи). Для обучения — не рекомендуется.

Вопрос: Можно ли такую систему использовать для оффлайн-ИИ компаньонов?

Ответ: Идеально. 72-96 ГБ VRAM позволяют держать в памяти несколько специализированных моделей одновременно (например, для речи, эмоций, планирования), обеспечивая полностью автономную работу без облачных запросов, что критично для приватности и доступности.

Вопрос: Как защитить такую систему от промпт-инъекций, если она работает как сервер?

Ответ: Всегда запускайте локальные модели за фаерволом, в изолированной сети. Используйте прокси-слой (например, NGINX) с валидацией входящих запросов и ограничением прав модели на уровне фреймворка (контекст, системный промпт).

Итог: Мощный инструмент за разумные деньги

Сборка гибридной системы на 3× RTX 3090 с eGPU — это не гонка за мегагерцами, а прагматичный инженерный подход к решению конкретной задачи: получить максимум VRAM для локальных LLM при минимальном бюджете. Это путь сообщества, путь экспериментов и находок. Вы не получите производительность как у NVIDIA DGX, но за 20-25% его стоимости соберёте установку, которая откроет двери в мир больших моделей, сложных агентов и приватных ИИ-приложений. Начинайте с двух карт, тестируйте, докупайте eGPU — и вперёд, к новым открытиям в мире локального интеллекта.

Собираем ПК для локальных LLM за копейки: 3× RTX 3090 и eGPU на 96 ГБ VRAM