Почему RTX 3090? Потому что дешево и много VRAM
Забудьте про RTX 4090. Забудьте про A100. Если вам нужно много видеопамяти за разумные деньги - RTX 3090 это ваш выбор. 24 ГБ GDDR6X на карту, возможность объединения через NVLink (не SLI, об этом позже), и цена на вторичном рынке, которая заставляет плакать владельцев новых карт.
Но есть проблема. Вернее, несколько проблем.
Проблема первая: термопаста на этих картах высыхает быстрее, чем молоко в пустыне. Проблема вторая: драйверы Nvidia для Linux - отдельный вид искусства со своими сюрпризами. Проблема третья: PCIe коммуникация между картами превращается в узкое место, если делать все по-дилетантски.
Эта статья - не теоретическое руководство. Это коллекция шишек, набитых за полгода эксплуатации кластера из четырех RTX 3090.
Предупреждение: Разборка видеокарты снимает гарантию. Если карта новая - лучше подумать дважды. Если б/у - вам уже все равно.
Термопаста: почему 3090 греется как печка и что с этим делать
RTX 3090 с завода поставляется с термопастой, которая через год-два превращается в сухую корку. Особенно если карта работала в майнинге (а большинство б/у карт именно оттуда).
Симптомы: температура памяти (junction temperature) под нагрузкой за 100°C, троттлинг, падение производительности на 20-30%.
1 Что понадобится для замены термопасты
- Термопаста высокой проводимости (Thermal Grizzly Kryonaut, Arctic MX-6, Noctua NT-H2)
- Термопрокладки разной толщины (обычно 1.5мм и 2мм)
- Набор отверток (Torx T5, T6, Philips #0, #1)
- Изопропиловый спирт 90%+ для очистки
- Антистатический браслет (не экономьте на этом)
- Пинцет для мелких винтов
2 Пошаговый процесс разборки
Снимите заднюю пластину. Открутите все винты (их много, где-то 15-20 штук). Запомните расположение винтов разной длины - потом соберете обратно.
Отсоедините разъемы вентиляторов. Аккуратно, они хрупкие.
Снимите систему охлаждения. Она может прилипнуть из-за старой термопасты - аккуратно подденьте по краям.
Очистите GPU и память от старой термопасты. Используйте изопропиловый спирт и безворсовые салфетки. Не трите слишком сильно - можно повредить чип.
Нанесите новую термопасту на GPU. Метод «горошина» или «крест». Не экономьте, но и не делайте озеро.
Замените термопрокладки. Это самый сложный этап. Измерьте старые прокладки штангенциркулем. Купите новые с такой же или чуть большей толщиной (на 0.1-0.2мм).
Ошибка №1: Использовать термопасту вместо прокладок на памяти. Термопаста вытекает под давлением, контакт ухудшается, память перегревается и деградирует.
Сборка кластера: сколько карт можно воткнуть в одну систему?
Теоретически - сколько слотов PCIe, столько и карт. Практически - ограничения начинаются с блока питания и заканчиваются драйверами.
| Количество 3090 | Минимальный БП | Рекомендуемый БП | Особенности |
|---|---|---|---|
| 2 карты | 1200W | 1600W | Можно в mid-tower корпусе |
| 3 карты | 1600W | 2×1200W | Нужны PCIe ризеры |
| 4 карты | 2×1200W | 2×1600W | Серверная плата или PCIe-коммутатор |
Для 4 карт смотрите в сторону платформ с большим количеством PCIe линий. X299, TRX40, WRX80. Или используйте PCIe-коммутаторы, как в статье про 7 видеокарт на AM5.
SLI vs NVLink: два брата, но один умный
Здесь 90% людей ошибаются. SLI (Scalable Link Interface) - технология для игр, которая делит рендеринг между картами. NVLink - высокоскоростная шина для вычислений.
Для LLM нужен NVLink, а не SLI. Но есть нюанс: на RTX 3090 NVLink мост имеет всего 2 линии (вместо 6 на профессиональных картах). Пропускная способность - 112 ГБ/с в каждом направлении против 32 ГБ/с у PCIe 4.0.
Тест: запускаем Llama 3 70B в 4-битной квантованности на двух 3090.
- Без NVLink: 2.5 токена/сек, утилизация GPU 40-60%
- С NVLink: 8-10 токенов/сек, утилизация GPU 90%+
Разница в 4 раза. Стоит ли покупать NVLink мост за $100-150? Если работаете с моделями больше 13B - однозначно да. Подробнее в статье про NVLink для двух RTX 3090.
Драйверы Nvidia: какой версии доверять?
Золотое правило: не обновляйте драйверы, если все работает. Но когда собираете кластер из 4+ карт, стабильность драйверов становится критичной.
Драйвер 470 vs 525 vs 590
Драйвер 470.xx - старый, стабильный, но без поддержки новых фич CUDA. Хорош для продакшена, где важна стабильность.
Драйвер 525.xx - компромиссный вариант. Поддержка большинства современных фреймворков, относительно стабильный.
Драйвер 590.xx - самый свежий на момент написания статьи. Добавлена поддержка новых API, но есть баги с multi-GPU конфигурациями.
# Установка драйвера 525 на Ubuntu 22.04
sudo apt purge nvidia-*
sudo apt autoremove
sudo apt update
# Добавляем репозиторий
sudo add-apt-repository ppa:graphics-drivers/ppa
sudo apt update
# Устанавливаем драйвер
sudo apt install nvidia-driver-525
# Перезагрузка
sudo reboot
# Проверяем установку
nvidia-smi
Ошибка №2: Установка драйверов через .run файл с официального сайта Nvidia. В 90% случаев это приводит к проблемам с зависимостями и обновлениями. Используйте пакетный менеджер вашего дистрибутива.
PCIe коммуникация: x16, x8, x4 - какая разница?
Разница огромная, особенно для распределенного обучения.
PCIe 4.0 x16: 32 ГБ/с
PCIe 4.0 x8: 16 ГБ/с
PCIe 4.0 x4: 8 ГБ/с
Если у вас 4 карты на процессоре с 24 линиями PCIe (типичный Ryzen 7000), конфигурация будет x8/x8/x4/x4. Карты в x4 слоях будут тормозить всю систему.
Решение: использовать материнскую плату с PLX-чипом (PCIe-коммутатором) или серверную плату с большим количеством линий.
Охлаждение: как не превратить корпус в сауну
Одна RTX 3090 выделяет 350W тепла. Четыре карты - 1400W. Это как два обогревателя на полную мощность.
Стратегии охлаждения:
- Использовать карты с референсным кулером (blower-style). Они выдувают горячий воздух наружу, а не в корпус.
- Если карты с открытыми кулерами - устанавливать их через слот. Между картами должен быть зазор хотя бы в один слот для циркуляции воздуха.
- Мощные вентиляторы на входе и выходе. Статическое давление важнее воздушного потока.
- Рассмотреть вариант с модификацией корпуса и установкой дополнительных вентиляторов.
Температурные цели под нагрузкой:
- GPU core: 70-80°C (выше 85°C - троттлинг)
- GPU memory junction: 90-100°C (выше 105°C - опасно)
- Горячий воздух из корпуса: не выше 45°C
Если температуры выше - снижайте power limit. Команда в Linux:
# Устанавливаем power limit 300W для всех карт
sudo nvidia-smi -pl 300
Производительность упадет на 10-15%, но температура снизится на 20-25°C. Иногда это стоит того. Больше об охлаждении плотных конфигураций в статье про 4 RTX Pro 6000.
Тестирование кластера: что запускать и на что смотреть
Собрали систему, установили драйверы. Что дальше? Тестировать.
Базовые тесты
# Проверяем видимость всех карт
nvidia-smi
# Тест пропускной способности PCIe
sudo apt install nvtop gpustat
nvtop
# Тест коммуникации между картами
# Устанавливаем NCCL
git clone https://github.com/NVIDIA/nccl-tests.git
cd nccl-tests
make
# Запускаем тест all_reduce на 4 картах
./build/all_reduce_perf -b 8 -e 128M -f 2 -g 4
Тест на реальной LLM
Устанавливаем oobabooga/text-generation-webui или llama.cpp. Загружаем модель Llama 3 70B в 4-битном формате.
Что смотрим:
- Скорость генерации (токенов/сек)
- Утилизация GPU (nvidia-smi dmon)
- Температуры под длительной нагрузкой (30+ минут)
- Стабильность системы (не должно быть падений драйверов)
FAQ: частые вопросы и проблемы
Почему система видит только 3 карты из 4?
Проблема в распределении PCIe линий или недостатке питания. Проверьте:
- Настройки BIOS (Above 4G Decoding, Resizable BAR)
- Достаточно ли мощности у блока питания
- Не перегревается ли чипсет материнской платы
Карты определяются, но падают под нагрузкой
Скорее всего проблема с питанием или перегревом. Уменьшите power limit, проверьте температуры памяти.
Можно ли смешивать разные модели 3090 в одном кластере?
Можно, но нежелательно. Разные версии BIOS, разная разводка питания, разные тайминги памяти. Если смешиваете - тестируйте стабильность вдвое дольше.
Стоит ли покупать китайские 3090 с Aliexpress?
Рискованно. Часто это карты с замененной памятью или отремонтированные после майнинга. Если покупаете - берите у продавцов с высоким рейтингом и проверяйте карту сразу после получения. Есть отдельный гайд по китайским GPU.
Итог: сколько это стоит и что получаем
Бюджет на кластер из 4 RTX 3090:
- 4× RTX 3090 б/у: $2400-3200
- Материнская плата X299/TRX40: $300-600
- Процессор (например, Threadripper 3960X): $600-800
- Память 128GB DDR4: $200-300
- 2× БП 1600W: $800-1000
- Корпус, ризеры, охлаждение: $300-500
Итого: $4600-6400 за систему с 96 ГБ VRAM.
За эти деньги вы получаете машину, которая потянет:
- Llama 3 70B в 4-битном формате с высокой скоростью
- Обучение моделей до 13B параметров
- Параллельную работу нескольких 7B-13B моделей
Альтернатива - одна RTX 4090 за $1600-2000 с 24 ГБ VRAM. Разница в 4 раза по объему памяти, но всего в 1.5-2 раза по стоимости.
Последний совет: перед сборкой полноценного кластера попробуйте собрать систему с двумя картами. Набьете шишек, поймете нюансы, потом масштабируетесь до четырех. Или не масштабируетесь - может оказаться, что и двух хватает.
P.S. Если после прочтения этой статьи у вас остались вопросы - значит, я плохо написал. Но такое бывает редко.