Проблема: Дорого, а хочется много VRAM
Каждый, кто погружался в мир локальных языковых моделей (LLM), сталкивался с одной и той же стеной: ограничение видеопамяти (VRAM). Современные модели вроде MiniMax-M2.1 или GLM 4.7 требуют десятки гигабайт для комфортной работы. Промышленные решения вроде NVIDIA H100 или даже RTX 4090 стоят как хорошая иномарка. Сообщество задыхается: эксперименты стоят слишком дорого.
Ключевая мысль: Для инференса LLM критически важна не столько вычислительная мощность (TFLOPS), сколько объём VRAM и пропускная способность памяти. Именно это позволяет загружать большие модели целиком, избегая медленного свопа на SSD.
Вот и возникает идея: а что, если собрать систему не на одной дорогой карте, а на нескольких старых, но с огромной памятью? RTX 3090 с её 24 ГБ GDDR6X — идеальный кандидат. На вторичном рынке её можно найти за относительно небольшие деньги. Но как запихнуть 3, а то и 4 такие карты в один ПК, да ещё и обеспечить их нормальной полосой PCIe?
Решение: Гибридная сборка на базе eGPU
Классический путь — материнская плата с 4-5 слотами PCIe x16. Проблема в том, что даже на топовых чипсетах (X670, Z790) реальных линий PCIe 4.0/5.0 от процессора ограниченное количество. При установке 4 карт они будут работать в режиме x4/x4/x4/x4, что создаёт серьёзное бутылочное горло для обмена данными между картами, критичное для таких фреймворков, как vLLM или ExLlamaV2.
Итоговая конфигурация: 3× RTX 3090 = 72 ГБ VRAM. Если добавить eGPU-бокс, поддерживающий две карты (например, Razer Core X Chroma с модификацией), можно выйти на 96 ГБ VRAM. Этого хватит, чтобы запускать мощные модели вроде MiniMax-M2.1 или работать над сложными агентными workflow без оглядки на облако.
Пошаговый план сборки
1 Выбор компонентов: сердце системы
Начнём с основы. Нам не нужен игровой монстр, нам нужна стабильная платформа с хорошей поддержкой PCIe линий.
| Компонент | Рекомендация | Обоснование |
|---|---|---|
| Материнская плата | ASUS ProArt B650-CREATOR или аналог с 2× PCIe x16 | Поддержка PCIe 4.0/5.0, хорошая разводка питания, 2.5G LAN. Важно: наличие Thunderbolt 4/USB4 для eGPU. |
| Процессор | AMD Ryzen 9 7900X или 7950X | 24/32 линии PCIe 5.0 от процессора. Для двух карт в слотах — режим x8/x8. Ядер хватит для предобработки данных. |
| Оперативная память | 64 ГБ DDR5 (2×32 ГБ) 6000 МГц CL30 | Dual-channel, низкие тайминги. Системная память используется для кэширования, если модель не помещается целиком в VRAM. |
| Блок питания | 1200-1600 Вт 80+ Platinum (Seasonic, Corsair) | Пиковая мощность одной RTX 3090 — до 450 Вт. Запас по мощности критичен для стабильности. |
| RTX 3090 | 3 штуки, б/у с проверкой | Ищем карты с хорошей системой охлаждения (3-слотовые). Обязательно тестируем на майнинг-нагрузку. |
| eGPU бокс | Razer Core X Chroma (или самодельный на базе R43SG) | Должен поддерживать карты полной длины и иметь БП не менее 1000 Вт для двух карт. |
2 Сборка и подключение: внимание к деталям
- Сборка основного ПК: Установите процессор, память, две RTX 3090 в слоты PCIe. Используйте мощные райзеры (PCIe 4.0 x16) если карты не помещаются. Подключите питание PCIe отдельными кабелями от БП (не используйте splitter!).
- Подготовка eGPU: Установите третью (и четвёртую) RTX 3090 в бокс eGPU. Для самодельного бокса на базе адаптера R43SG (PCIe x16 to Thunderbolt 3) убедитесь в надёжном креплении и охлаждении.
- Соединение: Подключите eGPU-бокс к материнской плате через кабель Thunderbolt 4/USB4. Убедитесь, что в BIOS/UEFI включена поддержка Thunderbolt и установлены все драйверы.
- Охлаждение: Три RTX 3090 в нагрузке выделяют >1000 Вт тепла. Обязателен корпус с отличной вентиляцией (например, Fractal Design Meshify 2 XL) и дополнительными вентиляторами на вдув.
3 Настройка ПО: от драйверов до фреймворков
Аппаратная часть — только половина дела. Правильная программная настройка раскроет потенциал системы.
# 1. Установите последние драйверы NVIDIA и CUDA Toolkit
wget https://developer.download.nvidia.com/compute/cuda/repos/ubuntu2204/x86_64/cuda-keyring_1.1-1_all.deb
sudo dpkg -i cuda-keyring_1.1-1_all.deb
sudo apt-get update
sudo apt-get -y install cuda-toolkit-12-4
# 2. Проверьте видимость всех карт
nvidia-smi
# Должны увидеть 3 (или 4) GPU с корректными названиями и температурой.
# 3. Установите и настройте фреймворк для LLM, например, Text Generation WebUI (oobabooga)
cd ~
git clone https://github.com/oobabooga/text-generation-webui
cd text-generation-webui
./start_linux.sh --gpu-memory 24 24 24 # Резервируем по 24 ГБ на каждой карте
Для распределения модели по нескольким GPU используйте квантование (GPTQ, AWQ) или нативные возможности фреймворков. Например, в Llama.cpp можно указать, какие слои модели на какую карту загружать.
# Пример запуска модели с распределением по 3 GPU в llama.cpp
./main -m ./models/mymodel.gguf -ngl 100 --tensor-split 24,24,24 -n 512
Нюансы и частые ошибки
- Проблема с PCIe Lanes: Самая частая ошибка — попытка поставить 3 карты в материнскую плату с 16+4+4 линиями. Третья карта будет работать в режиме x4, что убьёт производительность. Решение — eGPU.
- Недостаток питания: Блок питания 850 Вт не потянет 3× RTX 3090. При пиковой нагрузке система будет уходить в защиту. Берите с запасом.
- Перегрев: Карты, бывшие в майнинге, часто имеют убитую термопасту. Обязательно замените её, а также прокладки VRAM. Мониторьте температуру памяти (junction temperature) через HWiNFO64.
- Проблемы с eGPU в Windows/Linux: В Windows могут быть конфликты драйверов. В Linux (Ubuntu 22.04+) поддержка Thunderbolt улучшилась, но может потребоваться ручная настройка в BIOS и установка
bolt. Проверяйте соединение до покупки. - Совместимость ПО: Не все фреймворки LLM одинаково хорошо работают с несколькими GPU, особенно с разными «путами» (PCIe vs eGPU). Тестируйте на конкретных задачах, например, автономном кодинге.
FAQ: Ответы на главные вопросы
Вопрос: Почему именно RTX 3090, а не 4090?
Ответ: Соотношение цены к объёму VRAM. Б/у RTX 3090 стоит в 2-3 раза дешевле новой RTX 4090, при этом даёт те же 24 ГБ. Для LLM важнее память, а не абсолютная скорость FP32.
Вопрос: Насколько медленнее eGPU по сравнению с прямым PCIe?
Ответ: Thunderbolt 3/4 даёт пропускную способность, эквивалентную PCIe 3.0 x4. Это создаёт задержку при обмене данными между картой в eGPU и системой. Однако для инференса, когда модель загружена в VRAM и обмен минимален, это влияние может быть незначительным (5-15% в зависимости от задачи). Для обучения — не рекомендуется.
Вопрос: Можно ли такую систему использовать для оффлайн-ИИ компаньонов?
Ответ: Идеально. 72-96 ГБ VRAM позволяют держать в памяти несколько специализированных моделей одновременно (например, для речи, эмоций, планирования), обеспечивая полностью автономную работу без облачных запросов, что критично для приватности и доступности.
Вопрос: Как защитить такую систему от промпт-инъекций, если она работает как сервер?
Ответ: Всегда запускайте локальные модели за фаерволом, в изолированной сети. Используйте прокси-слой (например, NGINX) с валидацией входящих запросов и ограничением прав модели на уровне фреймворка (контекст, системный промпт).
Итог: Мощный инструмент за разумные деньги
Сборка гибридной системы на 3× RTX 3090 с eGPU — это не гонка за мегагерцами, а прагматичный инженерный подход к решению конкретной задачи: получить максимум VRAM для локальных LLM при минимальном бюджете. Это путь сообщества, путь экспериментов и находок. Вы не получите производительность как у NVIDIA DGX, но за 20-25% его стоимости соберёте установку, которая откроет двери в мир больших моделей, сложных агентов и приватных ИИ-приложений. Начинайте с двух карт, тестируйте, докупайте eGPU — и вперёд, к новым открытиям в мире локального интеллекта.