Бюджетный сервер 16x AMD MI50 для Deepseek V3.2: настройка, производительность | AiManual
AiManual Logo Ai / Manual.
07 Янв 2026 Гайд

16 карт MI50 за 15 тысяч: собираем бюджетного монстра для Deepseek V3.2

Полный гайд по сборке сервера на 16 картах AMD MI50 для запуска Deepseek V3.2: конфигурация, 10/2000 tok/s, энергопотребление 2400W, сравнение с дорогими решени

Зачем эта безумная сборка вообще нужна

Представьте: хотите запустить Deepseek V3.2 локально. Модель требует ~700GB памяти. Варианты? Арендовать A100 за $5/час (годовая аренда обойдется в новый дом) или собрать что-то самому. Но обычные GPU слишком дороги. А вот старые MI50 - это 32GB HBM2 за $300-400 штука. 16 штук = 512GB VRAM за ~$6000. Звучит как авантюра? Так и есть. Но она работает.

Если думаете, что это просто "воткнуть карты и запустить" - забудьте. Здесь каждый шаг - это битва с драйверами, версиями ROCm и китайскими продавцами, которые пришлют вам карты в разном состоянии.

Что получится в итоге (цифры, только цифры)

Метрика Значение Комментарий
Первое токен/сек ~10 Медленно, но это предсказание
Последующие токены/сек ~2000 Уже приемлемо для чата
Пиковое энергопотребление 2400W Да, это 2.4 кВт. Розетку проверьте.
Стоимость железа $15 000 - $18 000 Против $80 000 за аналоги на NVIDIA
Шум 75-80 дБ Не для квартиры. Точка.

Железо: что покупать, где и как не прогореть

Начнем с самого болезненного - поиска компонентов. Если думаете заказать все на AliExpress одним заказом - готовьтесь к месяцу ожидания и гарантированным проблемам.

1 Карты MI50: лотерея с китайскими продавцами

MI50 - это карты 2018 года. Они сняты с майнинговых ферм или старых серверов. Проблема в том, что HBM2 память на них деградирует. Как проверить? Никак. Пока не получите. Лучшая стратегия:

  • Заказывать у продавцов с реальными отзывами (не купленными)
  • Брать партию из 4-8 штук сначала для теста
  • Требовать фото карт с серийными номерами перед отправкой
  • Готовиться к 10-15% брака в партии
💡
Цена карты выше $450 - уже переплата. Ниже $300 - скорее всего, карта с проблемами. Золотая середина: $350-400 за штуку в партии от 8 штук.

2 Материнская плата: здесь экономить нельзя

Нужна плата с 16 PCIe x16 слотов. Или близко к этому. Варианты:

  1. Supermicro H11DSi-NT - два сокета EPYC, 7 x16 слотов. Но их почти нет в продаже после того, как Supermicro прекратила продажи большинства плат для энтузиастов.
  2. ASRock ROMED8-2T/BCM - 8 x16 слотов, но через PLX-чипы. Работает, но с натяжкой.
  3. Китайские кастомные решения на X99/X299 - рисковано, но дешево.

Я взял ASRock ROMED8-2T за $800. Дорого? Да. Но дешевле, чем сжечь 16 карт из-за плохого питания.

3 Процессоры, память и самое важное - питание

Каждая MI50 под нагрузкой жрет 300W. 16 карт = 4800W теоретически. На практике - около 2400W, потому что они не все одновременно на максимуме. Но блок питания нужен с запасом.

Компонент Модель Стоимость Зачем
Процессоры (2 шт) EPYC 7302 $600 128 PCIe линий, иначе карты не влезут
Память 8x32GB DDR4 RDIMM $400 256GB системной памяти - минимум
Блоки питания 2x Corsair AX1600i $1000 3200W суммарно, с запасом 30%
Рейки/корзины Кастомные $300 Без этого карты перегреются за 5 минут

Не пытайтесь запихнуть это в обычный корпус. Нужен серверный шкаф или открытый стенд. Температура 16 карт в закрытом корпусе = гарантированный thermal throttling через 10 минут.

Сборка: где все ломается

Собрать железо - это 30% работы. Остальные 70% - заставить это работать с ROCm и vLLM.

4 ROCm 5.7: установка через боль

MI50 работает только с ROCm 5.x. ROCm 6.x уже не поддерживает gfx906. Ubuntu 22.04 - ваш друг. 24.04 - враг. Порядок установки:

  1. Чистая Ubuntu 22.04.3 LTS
  2. Ядро 6.2+ (обязательно, иначе не увидит все карты)
  3. ROCm 5.7.1 через apt (не через скачивание deb-пакетов вручную)
  4. Проверка: rocm-smi должен показывать все 16 карт

Если видите 8 из 16 карт - это проблема с PCIe bifurcation. Заходите в BIOS, ищите "PCIe ARI Support" и "PCIe ARI Forwarding" - включаете оба. Перезагружаетесь. Если не помогло - меняйте материнскую плату.

5 vLLM с gfx906: патчи, флаги и молитвы

Официальный vLLM не поддерживает MI50 из коробки. Нужен форк с патчами под gfx906. Находите на GitHub форк с поддержкой ROCm 5.x (их несколько, все с багами). Клонируете, собираетесь.

Ключевые моменты:

  • Компилируйте с флагом -DGPU_ARCHS="gfx906"
  • Включайте tensor parallelism на 16 устройств
  • Память: используйте --gpu-memory-utilization 0.9 (оставляйте 10% на системные нужды)
  • Квантование: только AWQ или GPTQ. FP16 не влезет даже в 512GB
💡
Если vLLM падает с ошибкой "out of memory" при 400GB использовано - это норма. Перезапускайте с --max-model-len 8192 (вместо 32768). MI50 имеет особенности с аллокацией памяти.

Deepseek V3.2: запуск и тонкая настройка

Скачиваете квантованную версию Deepseek-V3.2-671B-AWQ. Весит ~350GB. Распаковываете на быстрый NVMe (не на HDD!).

6 Команда запуска, которая сработала

После трех дней проб и ошибок стабильно работает такая конфигурация:

  • --tensor-parallel-size 16 (все карты в деле)
  • --max-num-batched-tokens 2048
  • --max-num-seqs 4 (больше - падает память)
  • --gpu-memory-utilization 0.85
  • --dtype half (не auto!)

Первые токены будут генерироваться 5-10 секунд. Это норма для такой распределенной системы. Дальше пойдет 1500-2000 токенов в секунду.

Энергопотребление: считаем деньги

2400W - это при полной нагрузке на инференсе. На практике, в чате с паузами - 1800-2000W. В пересчете на электричество:

Режим Потребление Стоимость в месяц*
Простой (idle) 400W $35
Активный чат 1800W $160
Максимальная нагрузка 2400W $210

*При цене 0.12$ за кВт·ч и 24/7 работе

Да, это дорого. Но дешевле, чем аренда эквивалентного кластера на облаке ($50-70/час). Окупаемость против облака - около 300 часов работы.

Стоило ли оно того? Честный ответ

Если вам нужна одна из самых мощных LLM локально - да. Если вы исследователь и экспериментируете с разными моделями - возможно. Если вы просто хотите "поиграться" - нет, это безумие.

Плюсы этой сборки:

  • Цена в 4-5 раз ниже аналогичного решения на NVIDIA
  • Полный контроль над железом
  • Можно запускать любые 700B модели (не только Deepseek)
  • Опыт, который не купишь за деньги

Минусы (их больше):

  • Драйверы - это ад. ROCm 5.x уже устарела
  • Нет гарантии, что через год будет поддержка новых моделей
  • Шум как от реактивного двигателя
  • Электричество съедает бюджет
  • Вы постоянно будете что-то чинить

Если после прочтения этого гайда у вас еще есть желание собрать такую систему - вы либо гений, либо сумасшедший. В любом случае, удачи. Полный setup-гайд с командами и конфигами лежит в моем GitHub (ищите по "MI50 Deepseek setup").

Альтернатива? Можно собрать станцию на новых GPU за те же $15 000, но с 96-128GB VRAM вместо 512GB. Или использовать чисто CPU-инференс на старом серверном железе - медленно, но дешево.

Мой вердикт? Если у вас есть гараж, отдельная электрическая линия и много свободного времени - дерзайте. Если нет - лучше присмотреться к бюджетной 4-GPU ферме или даже к тихому монстру на RTX 5090.

P.S. Через месяц после сборки одна из MI50 начала артефактить. Продавец на AliExpress "уже не продает эти карты". Запасная карта обошлась еще в $370. Такие дела.