Зачем эта безумная сборка вообще нужна
Представьте: хотите запустить Deepseek V3.2 локально. Модель требует ~700GB памяти. Варианты? Арендовать A100 за $5/час (годовая аренда обойдется в новый дом) или собрать что-то самому. Но обычные GPU слишком дороги. А вот старые MI50 - это 32GB HBM2 за $300-400 штука. 16 штук = 512GB VRAM за ~$6000. Звучит как авантюра? Так и есть. Но она работает.
Если думаете, что это просто "воткнуть карты и запустить" - забудьте. Здесь каждый шаг - это битва с драйверами, версиями ROCm и китайскими продавцами, которые пришлют вам карты в разном состоянии.
Что получится в итоге (цифры, только цифры)
| Метрика | Значение | Комментарий |
|---|---|---|
| Первое токен/сек | ~10 | Медленно, но это предсказание |
| Последующие токены/сек | ~2000 | Уже приемлемо для чата |
| Пиковое энергопотребление | 2400W | Да, это 2.4 кВт. Розетку проверьте. |
| Стоимость железа | $15 000 - $18 000 | Против $80 000 за аналоги на NVIDIA |
| Шум | 75-80 дБ | Не для квартиры. Точка. |
Железо: что покупать, где и как не прогореть
Начнем с самого болезненного - поиска компонентов. Если думаете заказать все на AliExpress одним заказом - готовьтесь к месяцу ожидания и гарантированным проблемам.
1 Карты MI50: лотерея с китайскими продавцами
MI50 - это карты 2018 года. Они сняты с майнинговых ферм или старых серверов. Проблема в том, что HBM2 память на них деградирует. Как проверить? Никак. Пока не получите. Лучшая стратегия:
- Заказывать у продавцов с реальными отзывами (не купленными)
- Брать партию из 4-8 штук сначала для теста
- Требовать фото карт с серийными номерами перед отправкой
- Готовиться к 10-15% брака в партии
2 Материнская плата: здесь экономить нельзя
Нужна плата с 16 PCIe x16 слотов. Или близко к этому. Варианты:
- Supermicro H11DSi-NT - два сокета EPYC, 7 x16 слотов. Но их почти нет в продаже после того, как Supermicro прекратила продажи большинства плат для энтузиастов.
- ASRock ROMED8-2T/BCM - 8 x16 слотов, но через PLX-чипы. Работает, но с натяжкой.
- Китайские кастомные решения на X99/X299 - рисковано, но дешево.
Я взял ASRock ROMED8-2T за $800. Дорого? Да. Но дешевле, чем сжечь 16 карт из-за плохого питания.
3 Процессоры, память и самое важное - питание
Каждая MI50 под нагрузкой жрет 300W. 16 карт = 4800W теоретически. На практике - около 2400W, потому что они не все одновременно на максимуме. Но блок питания нужен с запасом.
| Компонент | Модель | Стоимость | Зачем |
|---|---|---|---|
| Процессоры (2 шт) | EPYC 7302 | $600 | 128 PCIe линий, иначе карты не влезут |
| Память | 8x32GB DDR4 RDIMM | $400 | 256GB системной памяти - минимум |
| Блоки питания | 2x Corsair AX1600i | $1000 | 3200W суммарно, с запасом 30% |
| Рейки/корзины | Кастомные | $300 | Без этого карты перегреются за 5 минут |
Не пытайтесь запихнуть это в обычный корпус. Нужен серверный шкаф или открытый стенд. Температура 16 карт в закрытом корпусе = гарантированный thermal throttling через 10 минут.
Сборка: где все ломается
Собрать железо - это 30% работы. Остальные 70% - заставить это работать с ROCm и vLLM.
4 ROCm 5.7: установка через боль
MI50 работает только с ROCm 5.x. ROCm 6.x уже не поддерживает gfx906. Ubuntu 22.04 - ваш друг. 24.04 - враг. Порядок установки:
- Чистая Ubuntu 22.04.3 LTS
- Ядро 6.2+ (обязательно, иначе не увидит все карты)
- ROCm 5.7.1 через apt (не через скачивание deb-пакетов вручную)
- Проверка: rocm-smi должен показывать все 16 карт
Если видите 8 из 16 карт - это проблема с PCIe bifurcation. Заходите в BIOS, ищите "PCIe ARI Support" и "PCIe ARI Forwarding" - включаете оба. Перезагружаетесь. Если не помогло - меняйте материнскую плату.
5 vLLM с gfx906: патчи, флаги и молитвы
Официальный vLLM не поддерживает MI50 из коробки. Нужен форк с патчами под gfx906. Находите на GitHub форк с поддержкой ROCm 5.x (их несколько, все с багами). Клонируете, собираетесь.
Ключевые моменты:
- Компилируйте с флагом -DGPU_ARCHS="gfx906"
- Включайте tensor parallelism на 16 устройств
- Память: используйте --gpu-memory-utilization 0.9 (оставляйте 10% на системные нужды)
- Квантование: только AWQ или GPTQ. FP16 не влезет даже в 512GB
Deepseek V3.2: запуск и тонкая настройка
Скачиваете квантованную версию Deepseek-V3.2-671B-AWQ. Весит ~350GB. Распаковываете на быстрый NVMe (не на HDD!).
6 Команда запуска, которая сработала
После трех дней проб и ошибок стабильно работает такая конфигурация:
- --tensor-parallel-size 16 (все карты в деле)
- --max-num-batched-tokens 2048
- --max-num-seqs 4 (больше - падает память)
- --gpu-memory-utilization 0.85
- --dtype half (не auto!)
Первые токены будут генерироваться 5-10 секунд. Это норма для такой распределенной системы. Дальше пойдет 1500-2000 токенов в секунду.
Энергопотребление: считаем деньги
2400W - это при полной нагрузке на инференсе. На практике, в чате с паузами - 1800-2000W. В пересчете на электричество:
| Режим | Потребление | Стоимость в месяц* |
|---|---|---|
| Простой (idle) | 400W | $35 |
| Активный чат | 1800W | $160 |
| Максимальная нагрузка | 2400W | $210 |
*При цене 0.12$ за кВт·ч и 24/7 работе
Да, это дорого. Но дешевле, чем аренда эквивалентного кластера на облаке ($50-70/час). Окупаемость против облака - около 300 часов работы.
Стоило ли оно того? Честный ответ
Если вам нужна одна из самых мощных LLM локально - да. Если вы исследователь и экспериментируете с разными моделями - возможно. Если вы просто хотите "поиграться" - нет, это безумие.
Плюсы этой сборки:
- Цена в 4-5 раз ниже аналогичного решения на NVIDIA
- Полный контроль над железом
- Можно запускать любые 700B модели (не только Deepseek)
- Опыт, который не купишь за деньги
Минусы (их больше):
- Драйверы - это ад. ROCm 5.x уже устарела
- Нет гарантии, что через год будет поддержка новых моделей
- Шум как от реактивного двигателя
- Электричество съедает бюджет
- Вы постоянно будете что-то чинить
Если после прочтения этого гайда у вас еще есть желание собрать такую систему - вы либо гений, либо сумасшедший. В любом случае, удачи. Полный setup-гайд с командами и конфигами лежит в моем GitHub (ищите по "MI50 Deepseek setup").
Альтернатива? Можно собрать станцию на новых GPU за те же $15 000, но с 96-128GB VRAM вместо 512GB. Или использовать чисто CPU-инференс на старом серверном железе - медленно, но дешево.
Мой вердикт? Если у вас есть гараж, отдельная электрическая линия и много свободного времени - дерзайте. Если нет - лучше присмотреться к бюджетной 4-GPU ферме или даже к тихому монстру на RTX 5090.
P.S. Через месяц после сборки одна из MI50 начала артефактить. Продавец на AliExpress "уже не продает эти карты". Запасная карта обошлась еще в $370. Такие дела.