Можно ли смешивать разные модели RTX 3090 в одном кластере?

Можно, но нежелательно. Разные версии BIOS, разная разводка питания и тайминги памяти могут вызвать проблемы со стабильностью. Если смешиваете - тестируйте систему вдвое дольше.

В чем разница между SLI и NVLink для LLM?

SLI - технология для игр, которая делит рендеринг между картами. NVLink - высокоскоростная шина для вычислений, которая объединяет память карт в единое адресное пространство. Для LLM нужен NVLink.

Сборка кластера RTX 3090 для LLM: гайд по термопасте, SLI и драйверам

Почему RTX 3090? Потому что дешево и много VRAM

Забудьте про RTX 4090. Забудьте про A100. Если вам нужно много видеопамяти за разумные деньги - RTX 3090 это ваш выбор. 24 ГБ GDDR6X на карту, возможность объединения через NVLink (не SLI, об этом позже), и цена на вторичном рынке, которая заставляет плакать владельцев новых карт.

Но есть проблема. Вернее, несколько проблем.

Проблема первая: термопаста на этих картах высыхает быстрее, чем молоко в пустыне. Проблема вторая: драйверы Nvidia для Linux - отдельный вид искусства со своими сюрпризами. Проблема третья: PCIe коммуникация между картами превращается в узкое место, если делать все по-дилетантски.

Эта статья - не теоретическое руководство. Это коллекция шишек, набитых за полгода эксплуатации кластера из четырех RTX 3090.

Предупреждение: Разборка видеокарты снимает гарантию. Если карта новая - лучше подумать дважды. Если б/у - вам уже все равно.

Термопаста: почему 3090 греется как печка и что с этим делать

RTX 3090 с завода поставляется с термопастой, которая через год-два превращается в сухую корку. Особенно если карта работала в майнинге (а большинство б/у карт именно оттуда).

Симптомы: температура памяти (junction temperature) под нагрузкой за 100°C, троттлинг, падение производительности на 20-30%.

1 Что понадобится для замены термопасты

Термопаста высокой проводимости (Thermal Grizzly Kryonaut, Arctic MX-6, Noctua NT-H2)
Термопрокладки разной толщины (обычно 1.5мм и 2мм)
Набор отверток (Torx T5, T6, Philips #0, #1)
Изопропиловый спирт 90%+ для очистки
Антистатический браслет (не экономьте на этом)
Пинцет для мелких винтов

2 Пошаговый процесс разборки

Снимите заднюю пластину. Открутите все винты (их много, где-то 15-20 штук). Запомните расположение винтов разной длины - потом соберете обратно.

Отсоедините разъемы вентиляторов. Аккуратно, они хрупкие.

Снимите систему охлаждения. Она может прилипнуть из-за старой термопасты - аккуратно подденьте по краям.

💡

Сфотографируйте каждый этап разборки на телефон. Особенно расположение термопрокладок. В 3090 они есть на памяти VRAM и на фазах питания. Если поставите прокладки неправильной толщины - охлаждение будет хуже, чем до замены.

Очистите GPU и память от старой термопасты. Используйте изопропиловый спирт и безворсовые салфетки. Не трите слишком сильно - можно повредить чип.

Нанесите новую термопасту на GPU. Метод «горошина» или «крест». Не экономьте, но и не делайте озеро.

Замените термопрокладки. Это самый сложный этап. Измерьте старые прокладки штангенциркулем. Купите новые с такой же или чуть большей толщиной (на 0.1-0.2мм).

Ошибка №1: Использовать термопасту вместо прокладок на памяти. Термопаста вытекает под давлением, контакт ухудшается, память перегревается и деградирует.

Сборка кластера: сколько карт можно воткнуть в одну систему?

Теоретически - сколько слотов PCIe, столько и карт. Практически - ограничения начинаются с блока питания и заканчиваются драйверами.

Количество 3090	Минимальный БП	Рекомендуемый БП	Особенности
2 карты	1200W	1600W	Можно в mid-tower корпусе
3 карты	1600W	2×1200W	Нужны PCIe ризеры
4 карты	2×1200W	2×1600W	Серверная плата или PCIe-коммутатор

Для 4 карт смотрите в сторону платформ с большим количеством PCIe линий. X299, TRX40, WRX80. Или используйте PCIe-коммутаторы, как в статье про 7 видеокарт на AM5.

SLI vs NVLink: два брата, но один умный

Здесь 90% людей ошибаются. SLI (Scalable Link Interface) - технология для игр, которая делит рендеринг между картами. NVLink - высокоскоростная шина для вычислений.

Для LLM нужен NVLink, а не SLI. Но есть нюанс: на RTX 3090 NVLink мост имеет всего 2 линии (вместо 6 на профессиональных картах). Пропускная способность - 112 ГБ/с в каждом направлении против 32 ГБ/с у PCIe 4.0.

💡

NVLink на 3090 объединяет память двух карт в единое адресное пространство. Для PyTorch это означает torch.cuda.set_device(0) и автоматическое распределение модели. Без NVLink вам придется вручную копировать тензоры между картами через PCIe, что убивает производительность.

Тест: запускаем Llama 3 70B в 4-битной квантованности на двух 3090.

Без NVLink: 2.5 токена/сек, утилизация GPU 40-60%
С NVLink: 8-10 токенов/сек, утилизация GPU 90%+

Разница в 4 раза. Стоит ли покупать NVLink мост за $100-150? Если работаете с моделями больше 13B - однозначно да. Подробнее в статье про NVLink для двух RTX 3090.

Драйверы Nvidia: какой версии доверять?

Золотое правило: не обновляйте драйверы, если все работает. Но когда собираете кластер из 4+ карт, стабильность драйверов становится критичной.

Драйвер 470 vs 525 vs 590

Драйвер 470.xx - старый, стабильный, но без поддержки новых фич CUDA. Хорош для продакшена, где важна стабильность.

Драйвер 525.xx - компромиссный вариант. Поддержка большинства современных фреймворков, относительно стабильный.

Драйвер 590.xx - самый свежий на момент написания статьи. Добавлена поддержка новых API, но есть баги с multi-GPU конфигурациями.

# Установка драйвера 525 на Ubuntu 22.04
sudo apt purge nvidia-*
sudo apt autoremove
sudo apt update

# Добавляем репозиторий
sudo add-apt-repository ppa:graphics-drivers/ppa
sudo apt update

# Устанавливаем драйвер
sudo apt install nvidia-driver-525

# Перезагрузка
sudo reboot

# Проверяем установку
nvidia-smi

Ошибка №2: Установка драйверов через .run файл с официального сайта Nvidia. В 90% случаев это приводит к проблемам с зависимостями и обновлениями. Используйте пакетный менеджер вашего дистрибутива.

PCIe коммуникация: x16, x8, x4 - какая разница?

Разница огромная, особенно для распределенного обучения.

PCIe 4.0 x16: 32 ГБ/с
PCIe 4.0 x8: 16 ГБ/с
PCIe 4.0 x4: 8 ГБ/с

Если у вас 4 карты на процессоре с 24 линиями PCIe (типичный Ryzen 7000), конфигурация будет x8/x8/x4/x4. Карты в x4 слоях будут тормозить всю систему.

Решение: использовать материнскую плату с PLX-чипом (PCIe-коммутатором) или серверную плату с большим количеством линий.

Охлаждение: как не превратить корпус в сауну

Одна RTX 3090 выделяет 350W тепла. Четыре карты - 1400W. Это как два обогревателя на полную мощность.

Стратегии охлаждения:

Использовать карты с референсным кулером (blower-style). Они выдувают горячий воздух наружу, а не в корпус.
Если карты с открытыми кулерами - устанавливать их через слот. Между картами должен быть зазор хотя бы в один слот для циркуляции воздуха.
Мощные вентиляторы на входе и выходе. Статическое давление важнее воздушного потока.
Рассмотреть вариант с модификацией корпуса и установкой дополнительных вентиляторов.

Температурные цели под нагрузкой:

GPU core: 70-80°C (выше 85°C - троттлинг)
GPU memory junction: 90-100°C (выше 105°C - опасно)
Горячий воздух из корпуса: не выше 45°C

Если температуры выше - снижайте power limit. Команда в Linux:

# Устанавливаем power limit 300W для всех карт
sudo nvidia-smi -pl 300

Производительность упадет на 10-15%, но температура снизится на 20-25°C. Иногда это стоит того. Больше об охлаждении плотных конфигураций в статье про 4 RTX Pro 6000.

Тестирование кластера: что запускать и на что смотреть

Собрали систему, установили драйверы. Что дальше? Тестировать.

Базовые тесты

# Проверяем видимость всех карт
nvidia-smi

# Тест пропускной способности PCIe
sudo apt install nvtop gpustat
nvtop

# Тест коммуникации между картами
# Устанавливаем NCCL
git clone https://github.com/NVIDIA/nccl-tests.git
cd nccl-tests
make

# Запускаем тест all_reduce на 4 картах
./build/all_reduce_perf -b 8 -e 128M -f 2 -g 4

Тест на реальной LLM

Устанавливаем oobabooga/text-generation-webui или llama.cpp. Загружаем модель Llama 3 70B в 4-битном формате.

Что смотрим:

Скорость генерации (токенов/сек)
Утилизация GPU (nvidia-smi dmon)
Температуры под длительной нагрузкой (30+ минут)
Стабильность системы (не должно быть падений драйверов)

FAQ: частые вопросы и проблемы

Почему система видит только 3 карты из 4?

Проблема в распределении PCIe линий или недостатке питания. Проверьте:

Настройки BIOS (Above 4G Decoding, Resizable BAR)
Достаточно ли мощности у блока питания
Не перегревается ли чипсет материнской платы

Карты определяются, но падают под нагрузкой

Скорее всего проблема с питанием или перегревом. Уменьшите power limit, проверьте температуры памяти.

Можно ли смешивать разные модели 3090 в одном кластере?

Можно, но нежелательно. Разные версии BIOS, разная разводка питания, разные тайминги памяти. Если смешиваете - тестируйте стабильность вдвое дольше.

Стоит ли покупать китайские 3090 с Aliexpress?

Рискованно. Часто это карты с замененной памятью или отремонтированные после майнинга. Если покупаете - берите у продавцов с высоким рейтингом и проверяйте карту сразу после получения. Есть отдельный гайд по китайским GPU.

Итог: сколько это стоит и что получаем

Бюджет на кластер из 4 RTX 3090:

4× RTX 3090 б/у: $2400-3200
Материнская плата X299/TRX40: $300-600
Процессор (например, Threadripper 3960X): $600-800
Память 128GB DDR4: $200-300
2× БП 1600W: $800-1000
Корпус, ризеры, охлаждение: $300-500

Итого: $4600-6400 за систему с 96 ГБ VRAM.

За эти деньги вы получаете машину, которая потянет:

Llama 3 70B в 4-битном формате с высокой скоростью
Обучение моделей до 13B параметров
Параллельную работу нескольких 7B-13B моделей

Альтернатива - одна RTX 4090 за $1600-2000 с 24 ГБ VRAM. Разница в 4 раза по объему памяти, но всего в 1.5-2 раза по стоимости.

Последний совет: перед сборкой полноценного кластера попробуйте собрать систему с двумя картами. Набьете шишек, поймете нюансы, потом масштабируетесь до четырех. Или не масштабируетесь - может оказаться, что и двух хватает.

P.S. Если после прочтения этой статьи у вас остались вопросы - значит, я плохо написал. Но такое бывает редко.

RTX 3090 для LLM: сборка кластера, замена термопасты, тесты SLI и драйверы Nvidia