Зачем эта безумная сборка вообще нужна

Представьте: хотите запустить Deepseek V3.2 локально. Модель требует ~700GB памяти. Варианты? Арендовать A100 за $5/час (годовая аренда обойдется в новый дом) или собрать что-то самому. Но обычные GPU слишком дороги. А вот старые MI50 - это 32GB HBM2 за $300-400 штука. 16 штук = 512GB VRAM за ~$6000. Звучит как авантюра? Так и есть. Но она работает.

Если думаете, что это просто "воткнуть карты и запустить" - забудьте. Здесь каждый шаг - это битва с драйверами, версиями ROCm и китайскими продавцами, которые пришлют вам карты в разном состоянии.

Что получится в итоге (цифры, только цифры)

Метрика	Значение	Комментарий
Первое токен/сек	~10	Медленно, но это предсказание
Последующие токены/сек	~2000	Уже приемлемо для чата
Пиковое энергопотребление	2400W	Да, это 2.4 кВт. Розетку проверьте.
Стоимость железа	$15 000 - $18 000	Против $80 000 за аналоги на NVIDIA
Шум	75-80 дБ	Не для квартиры. Точка.

Железо: что покупать, где и как не прогореть

Начнем с самого болезненного - поиска компонентов. Если думаете заказать все на AliExpress одним заказом - готовьтесь к месяцу ожидания и гарантированным проблемам.

1 Карты MI50: лотерея с китайскими продавцами

MI50 - это карты 2018 года. Они сняты с майнинговых ферм или старых серверов. Проблема в том, что HBM2 память на них деградирует. Как проверить? Никак. Пока не получите. Лучшая стратегия:

Заказывать у продавцов с реальными отзывами (не купленными)
Брать партию из 4-8 штук сначала для теста
Требовать фото карт с серийными номерами перед отправкой
Готовиться к 10-15% брака в партии

💡

Цена карты выше $450 - уже переплата. Ниже $300 - скорее всего, карта с проблемами. Золотая середина: $350-400 за штуку в партии от 8 штук.

2 Материнская плата: здесь экономить нельзя

Нужна плата с 16 PCIe x16 слотов. Или близко к этому. Варианты:

Supermicro H11DSi-NT - два сокета EPYC, 7 x16 слотов. Но их почти нет в продаже после того, как Supermicro прекратила продажи большинства плат для энтузиастов.
ASRock ROMED8-2T/BCM - 8 x16 слотов, но через PLX-чипы. Работает, но с натяжкой.
Китайские кастомные решения на X99/X299 - рисковано, но дешево.

Я взял ASRock ROMED8-2T за $800. Дорого? Да. Но дешевле, чем сжечь 16 карт из-за плохого питания.

3 Процессоры, память и самое важное - питание

Каждая MI50 под нагрузкой жрет 300W. 16 карт = 4800W теоретически. На практике - около 2400W, потому что они не все одновременно на максимуме. Но блок питания нужен с запасом.

Компонент	Модель	Стоимость	Зачем
Процессоры (2 шт)	EPYC 7302	$600	128 PCIe линий, иначе карты не влезут
Память	8x32GB DDR4 RDIMM	$400	256GB системной памяти - минимум
Блоки питания	2x Corsair AX1600i	$1000	3200W суммарно, с запасом 30%
Рейки/корзины	Кастомные	$300	Без этого карты перегреются за 5 минут

Не пытайтесь запихнуть это в обычный корпус. Нужен серверный шкаф или открытый стенд. Температура 16 карт в закрытом корпусе = гарантированный thermal throttling через 10 минут.

Сборка: где все ломается

Собрать железо - это 30% работы. Остальные 70% - заставить это работать с ROCm и vLLM.

4 ROCm 5.7: установка через боль

MI50 работает только с ROCm 5.x. ROCm 6.x уже не поддерживает gfx906. Ubuntu 22.04 - ваш друг. 24.04 - враг. Порядок установки:

Чистая Ubuntu 22.04.3 LTS
Ядро 6.2+ (обязательно, иначе не увидит все карты)
ROCm 5.7.1 через apt (не через скачивание deb-пакетов вручную)
Проверка: rocm-smi должен показывать все 16 карт

Если видите 8 из 16 карт - это проблема с PCIe bifurcation. Заходите в BIOS, ищите "PCIe ARI Support" и "PCIe ARI Forwarding" - включаете оба. Перезагружаетесь. Если не помогло - меняйте материнскую плату.

5 vLLM с gfx906: патчи, флаги и молитвы

Официальный vLLM не поддерживает MI50 из коробки. Нужен форк с патчами под gfx906. Находите на GitHub форк с поддержкой ROCm 5.x (их несколько, все с багами). Клонируете, собираетесь.

Ключевые моменты:

Компилируйте с флагом -DGPU_ARCHS="gfx906"
Включайте tensor parallelism на 16 устройств
Память: используйте --gpu-memory-utilization 0.9 (оставляйте 10% на системные нужды)
Квантование: только AWQ или GPTQ. FP16 не влезет даже в 512GB

💡

Если vLLM падает с ошибкой "out of memory" при 400GB использовано - это норма. Перезапускайте с --max-model-len 8192 (вместо 32768). MI50 имеет особенности с аллокацией памяти.

Deepseek V3.2: запуск и тонкая настройка

Скачиваете квантованную версию Deepseek-V3.2-671B-AWQ. Весит ~350GB. Распаковываете на быстрый NVMe (не на HDD!).

6 Команда запуска, которая сработала

После трех дней проб и ошибок стабильно работает такая конфигурация:

--tensor-parallel-size 16 (все карты в деле)
--max-num-batched-tokens 2048
--max-num-seqs 4 (больше - падает память)
--gpu-memory-utilization 0.85
--dtype half (не auto!)

Первые токены будут генерироваться 5-10 секунд. Это норма для такой распределенной системы. Дальше пойдет 1500-2000 токенов в секунду.

Энергопотребление: считаем деньги

2400W - это при полной нагрузке на инференсе. На практике, в чате с паузами - 1800-2000W. В пересчете на электричество:

Режим	Потребление	Стоимость в месяц*
Простой (idle)	400W	$35
Активный чат	1800W	$160
Максимальная нагрузка	2400W	$210

*При цене 0.12$ за кВт·ч и 24/7 работе

Да, это дорого. Но дешевле, чем аренда эквивалентного кластера на облаке ($50-70/час). Окупаемость против облака - около 300 часов работы.

Стоило ли оно того? Честный ответ

Если вам нужна одна из самых мощных LLM локально - да. Если вы исследователь и экспериментируете с разными моделями - возможно. Если вы просто хотите "поиграться" - нет, это безумие.

Плюсы этой сборки:

Цена в 4-5 раз ниже аналогичного решения на NVIDIA
Полный контроль над железом
Можно запускать любые 700B модели (не только Deepseek)
Опыт, который не купишь за деньги

Минусы (их больше):

Драйверы - это ад. ROCm 5.x уже устарела
Нет гарантии, что через год будет поддержка новых моделей
Шум как от реактивного двигателя
Электричество съедает бюджет
Вы постоянно будете что-то чинить

Если после прочтения этого гайда у вас еще есть желание собрать такую систему - вы либо гений, либо сумасшедший. В любом случае, удачи. Полный setup-гайд с командами и конфигами лежит в моем GitHub (ищите по "MI50 Deepseek setup").

Альтернатива? Можно собрать станцию на новых GPU за те же $15 000, но с 96-128GB VRAM вместо 512GB. Или использовать чисто CPU-инференс на старом серверном железе - медленно, но дешево.

Мой вердикт? Если у вас есть гараж, отдельная электрическая линия и много свободного времени - дерзайте. Если нет - лучше присмотреться к бюджетной 4-GPU ферме или даже к тихому монстру на RTX 5090.

P.S. Через месяц после сборки одна из MI50 начала артефактить. Продавец на AliExpress "уже не продает эти карты". Запасная карта обошлась еще в $370. Такие дела.

16 карт MI50 за 15 тысяч: собираем бюджетного монстра для Deepseek V3.2