Безумие, которое работает. Зачем?

Платить OpenAI $700 в месяц за API к модели уровня GPT-4? Скучно. Арендовать инстанс с восемью H100 за $15 000 в месяц? Для слабаков. Реальная инженерная задача 2026 года - запихнуть 671 миллиард параметров DeepSeek V3.2 в корпус под столом и заставить это работать за цену подержанной иномарки. Не новой. Очень подержанной.

Это не про экономию. Хотя экономия здесь космическая. Это про контроль. Когда ваша модель живет у вас в шкафу, вы не зависите от перебоев в дата-центре, политик использования или внезапных изменений в API. Вы спрашиваете - она отвечает. Всегда.

Предупреждение: Этот гайд не для всех. Если вы пугаетесь командной строки или думаете, что PCIe riser - это финансовый инструмент, лучше арендуйте облако. Здесь будут пахнуть паяльником, китайскими сделками на eBay и магией квантования.

Математика безумия: почему $2000?

Полная версия DeepSeek-V3.2-671B в формате BF16 весит примерно 1.3 терабайта. Чтобы просто загрузить ее, нужно минимум 1.5 ТБ GPU памяти. Новейшая карта H200 с 141 ГБ стоит больше нашего всего бюджета. Значит, нужен другой подход.

Секрет в трех вещах:

Квантование Q4_K_M сжимает модель в 4-5 раз с минимальной потерей качества
Б/у серверные GPU вроде AMD MI50 за $150-200 за штуку
Распределение слоев между GPU и RAM через llama.cpp

После квантования в Q4_K_M модель занимает около 280-300 ГБ. Это уже в зоне досягаемости для 4-5 карт MI50 по 32 ГБ каждая плюс системная память. В статье про 16 карт MI50 за 15 тысяч мы уже разбирали, как эти карты стали темным конем бюджетных AI-сборок.

1 Собираем костяк: железо за $1800

Вот компоненты, которые ищут на eBay, Avito и в китайских магазинах. Не покупайте все новое - в этом нет смысла.

Компонент	Модель	Цена ($)	Зачем
Материнская плата	Supermicro H11DSi (б/у)	250	Два сокета SP3, 7 PCIe x16
Процессор (2 шт)	AMD EPYC 7302 (б/у)	180 за оба	128 PCIe линий, много ядер
Память	256 GB DDR4 3200 (8x32)	300	Для слоев модели, которые не влезут в GPU
GPU (4 шт)	AMD MI50 32GB (б/у)	700	Основная мощность, 128 ГБ суммарно
Блок питания	Seasonic 1600W Titanium	250	4 карты MI50 жрут до 1200W под нагрузкой
Корпус	Фермерский 4U (новый)	120	Вмещает все, вентиляторы на передней панели

Итого: ~$1800. Остальные $200 на кабели, термопасту и пиво для процесса сборки. Карты MI50 можно найти на AliExpress - продавцы из Китая часто имеют партии списанных карт из дата-центров. Проверяйте рейтинг продавца. Всегда.

💡

В 2026 году вырос спрос на б/у серверные материнские платы. Если найти H11DSi сложно, ищите аналог от ASRock Rack или Tyan. Главное - минимум 4 PCIe x16 слотов и поддержка EPYC. Кризис железа, о котором мы писали здесь, делает охоту за компонентами экстремальным спортом.

2 Сборка: когда вентиляторы важнее процессора

Собирать это нужно в хорошо проветриваемом помещении. Или в гараже. Четыре MI50 выделяют до 1400 ватт тепла. Без правильного обдува они сгорят за час.

Как НЕ делать:

Ставить карты вплотную друг к другу - между ними должен быть хотя бы один слот
Использовать штатные вентиляторы корпуса - купите промышленные Noctua или Delta
Забыть про PCIe riser cables - без них карты не встанут

Порядок сборки:

Установите процессоры и память в материнскую плату вне корпуса
Закрепите материнскую плату в корпусе
Установите блок питания, проложите основные кабели
Через PCIe riser установите первую карту MI50, закрепите
Повторите для остальных трех карт с зазорами
Подключите все питания PCIe (каждой MI50 нужно 2x8-pin!)
Установите вентиляторы: три на вдув спереди, два на выдув сзади

Важно: MI50 используют разъемы EPS (CPU), а не PCIe для дополнительного питания. Не пытайтесь впихнуть PCIe кабель в EPS разъем - сломаете. Нужны специальные кабели или переходники.

3 Программная пропитка: от драйверов до ROCm

А вот здесь начинается настоящая магия. И головная боль. AMD не делает установку ROCm простой. Но на 2026 год ситуация улучшилась.

Устанавливаем Ubuntu 24.04 LTS. Почему не 26.04? Потому что поддержка MI50 в новейших ядрах обрезана. 24.04 - последняя, где все работает из коробки.

# Обновляем систему
sudo apt update && sudo apt upgrade -y

# Ставим ядро 6.8 (нужно для ROCm 6.1)
sudo apt install linux-image-6.8.0-generic

# Перезагружаемся
sudo reboot

ROCm 6.1 - последняя версия, поддерживающая MI50. Устанавливаем:

# Добавляем репозиторий ROCm
wget https://repo.radeon.com/amdgpu-install/6.1/ubuntu/jammy/amdgpu-install_6.1.60100-1_all.deb
sudo apt install ./amdgpu-install_6.1.60100-1_all.deb

# Ставим ROCm
sudo amdgpu-install --usecase=rocm --no-dkms

# Проверяем установку
rocminfo

Если видите четыре карты MI50 в выводе - вы герой. Если нет - проверьте, что карты правильно сидят в слотах и получают питание.

4 Квантование: искусство сжатия гиганта

Скачиваем оригинальную модель DeepSeek-V3.2-671B. Нужен аккаунт на Hugging Face и много места на диске. Очень много.

# Устанавливаем инструменты
pip install transformers accelerate torch

# Скачиваем модель (готовьтесь ждать)
python -c "from transformers import AutoModelForCausalLM; model = AutoModelForCausalLM.from_pretrained('deepseek-ai/DeepSeek-V3.2-671B', torch_dtype=torch.bfloat16)"

Теперь квантование. Мы используем llama.cpp с поддержкой ROCm. Компилируем последнюю версию:

git clone https://github.com/ggerganov/llama.cpp
cd llama.cpp
make LLAMA_HIPBLAS=1 -j$(nproc)

Конвертируем модель в GGUF формат и квантуем до Q4_K_M:

# Конвертация в GGUF
python3 convert.py ./models/deepseek-v3.2-671b --outfile ./models/deepseek-v3.2-671b.gguf

# Квантование (это займет часы)
./quantize ./models/deepseek-v3.2-671b.gguf ./models/deepseek-v3.2-671b-q4_k_m.gguf q4_k_m

Размер файла после квантования: примерно 285 ГБ. Все еще огромно, но уже вменяемо.

💡

Q4_K_M - золотая середина между размером и качеством на 2026 год. Если хотите сэкономить еще память, используйте IQ3_XS, но потеря качества будет заметной. Для анализа разных подходов смотрите наше сравнение DeepSeek V3.2 с конкурентами.

5 Запуск: момент истины

Теперь распределяем слои модели между GPU и RAM. У нас 128 ГБ GPU памяти и 256 ГБ RAM. Значит, около 100 слоев можно загрузить в GPU, остальные - в RAM.

# Запускаем модель с распределением
./main -m ./models/deepseek-v3.2-671b-q4_k_m.gguf \
  -ngl 100 \
  -c 32768 \
  -b 512 \
  -t 48 \
  --simple-io \
  -p "Скажи, стоит ли собирать такой сервер в 2026 году?"

Ключевые параметры:

-ngl 100: загрузить 100 слоев в GPU (занимает ~115 ГБ)
-c 32768: контекст 32K токенов (можно и 128K, но медленнее)
-t 48: использовать 48 потоков CPU (у нас 32 ядра, 64 потока)
-b 512: размер батча

Первая загрузка займет 10-15 минут. Не паникуйте. Модель инициализирует веса. Дальнейшие инференсы будут быстрее.

Что получим на выходе? Цифры

После недели настройки и оптимизации:

Скорость генерации: 3-5 токенов в секунду для 32K контекста
Потребление: 1100-1300W под нагрузкой
Качество ответов: 95-97% от оригинальной модели в BF16
Шум: как у пылесоса. Серьезно, думайте о звукоизоляции

Это не для чата в реальном времени. Это для research, анализа документов, batch processing. Но зато свой. Полностью.

Типичные грабли: куда не ступать

Я собрал три таких сервера. Вот что ломается чаще всего:

Ошибка 1: Карты MI50 перегреваются и троттлят. Решение: установить активные кулеры вместо пассивных. Да, придется модифицировать карты. Нет, гарантия не действует (если она вообще была).

Ошибка 2: ROCm не видит все карты. Проверьте /dev/kfd права. Часто помогает добавление пользователя в группы render и video.

Ошибка 3: Модель загружается, но генерация медленная. Скорее всего, слои загружаются в RAM вместо GPU. Увеличьте значение -ngl. Но не больше, чем позволяет память.

Альтернативы? Конечно

Не хотите возиться с б/у железом? Есть варианты:

Аренда облака: в Selectel теперь есть флагманские серверы для AI с H100. Месяц аренды = стоимость нашего железа.
Меньшая модель: DeepSeek Coder 33B отлично работает на Mac Mini M2 Pro, как в нашем сравнении апгрейдов.
Совместная покупка: как в статье про четырех человек и восемь Blackwell.

Вопросы, которые зададут соседи

Счет за электричество не убьет? Будет +$100-150 в месяц при активном использовании. Все еще дешевле облака.

А если сломается? Вы научитесь ремонтировать. Или купите запасные части. Это хобби с элементами экстрима.

Когда окупится? Если бы вы использовали API DeepSeek-V3.2-671B по $0.12 за 1K токенов выходных данных, то при генерации 10 млн токенов в месяц - за 4-5 месяцев. Но это если считать только токены. Контроль и приватность не имеют цены.

Главное - начать. Купите сначала одну карту MI50, попробуйте запустить модель поменьше. Потом докупите остальное. К 2027 году, возможно, появится что-то лучше. Но навык сборки таких систем останется с вами навсегда. Как и гул вентиляторов под столом.

Подписаться на канал

DeepSeek 671B за $2000 дома: полный гайд по сборке сервера, квантованию и запуску гигантской модели