Безумие, которое работает. Зачем?
Платить OpenAI $700 в месяц за API к модели уровня GPT-4? Скучно. Арендовать инстанс с восемью H100 за $15 000 в месяц? Для слабаков. Реальная инженерная задача 2026 года - запихнуть 671 миллиард параметров DeepSeek V3.2 в корпус под столом и заставить это работать за цену подержанной иномарки. Не новой. Очень подержанной.
Это не про экономию. Хотя экономия здесь космическая. Это про контроль. Когда ваша модель живет у вас в шкафу, вы не зависите от перебоев в дата-центре, политик использования или внезапных изменений в API. Вы спрашиваете - она отвечает. Всегда.
Предупреждение: Этот гайд не для всех. Если вы пугаетесь командной строки или думаете, что PCIe riser - это финансовый инструмент, лучше арендуйте облако. Здесь будут пахнуть паяльником, китайскими сделками на eBay и магией квантования.
Математика безумия: почему $2000?
Полная версия DeepSeek-V3.2-671B в формате BF16 весит примерно 1.3 терабайта. Чтобы просто загрузить ее, нужно минимум 1.5 ТБ GPU памяти. Новейшая карта H200 с 141 ГБ стоит больше нашего всего бюджета. Значит, нужен другой подход.
Секрет в трех вещах:
- Квантование Q4_K_M сжимает модель в 4-5 раз с минимальной потерей качества
- Б/у серверные GPU вроде AMD MI50 за $150-200 за штуку
- Распределение слоев между GPU и RAM через llama.cpp
После квантования в Q4_K_M модель занимает около 280-300 ГБ. Это уже в зоне досягаемости для 4-5 карт MI50 по 32 ГБ каждая плюс системная память. В статье про 16 карт MI50 за 15 тысяч мы уже разбирали, как эти карты стали темным конем бюджетных AI-сборок.
1 Собираем костяк: железо за $1800
Вот компоненты, которые ищут на eBay, Avito и в китайских магазинах. Не покупайте все новое - в этом нет смысла.
| Компонент | Модель | Цена ($) | Зачем |
|---|---|---|---|
| Материнская плата | Supermicro H11DSi (б/у) | 250 | Два сокета SP3, 7 PCIe x16 |
| Процессор (2 шт) | AMD EPYC 7302 (б/у) | 180 за оба | 128 PCIe линий, много ядер |
| Память | 256 GB DDR4 3200 (8x32) | 300 | Для слоев модели, которые не влезут в GPU |
| GPU (4 шт) | AMD MI50 32GB (б/у) | 700 | Основная мощность, 128 ГБ суммарно |
| Блок питания | Seasonic 1600W Titanium | 250 | 4 карты MI50 жрут до 1200W под нагрузкой |
| Корпус | Фермерский 4U (новый) | 120 | Вмещает все, вентиляторы на передней панели |
Итого: ~$1800. Остальные $200 на кабели, термопасту и пиво для процесса сборки. Карты MI50 можно найти на AliExpress - продавцы из Китая часто имеют партии списанных карт из дата-центров. Проверяйте рейтинг продавца. Всегда.
2 Сборка: когда вентиляторы важнее процессора
Собирать это нужно в хорошо проветриваемом помещении. Или в гараже. Четыре MI50 выделяют до 1400 ватт тепла. Без правильного обдува они сгорят за час.
Как НЕ делать:
- Ставить карты вплотную друг к другу - между ними должен быть хотя бы один слот
- Использовать штатные вентиляторы корпуса - купите промышленные Noctua или Delta
- Забыть про PCIe riser cables - без них карты не встанут
Порядок сборки:
- Установите процессоры и память в материнскую плату вне корпуса
- Закрепите материнскую плату в корпусе
- Установите блок питания, проложите основные кабели
- Через PCIe riser установите первую карту MI50, закрепите
- Повторите для остальных трех карт с зазорами
- Подключите все питания PCIe (каждой MI50 нужно 2x8-pin!)
- Установите вентиляторы: три на вдув спереди, два на выдув сзади
Важно: MI50 используют разъемы EPS (CPU), а не PCIe для дополнительного питания. Не пытайтесь впихнуть PCIe кабель в EPS разъем - сломаете. Нужны специальные кабели или переходники.
3 Программная пропитка: от драйверов до ROCm
А вот здесь начинается настоящая магия. И головная боль. AMD не делает установку ROCm простой. Но на 2026 год ситуация улучшилась.
Устанавливаем Ubuntu 24.04 LTS. Почему не 26.04? Потому что поддержка MI50 в новейших ядрах обрезана. 24.04 - последняя, где все работает из коробки.
# Обновляем систему
sudo apt update && sudo apt upgrade -y
# Ставим ядро 6.8 (нужно для ROCm 6.1)
sudo apt install linux-image-6.8.0-generic
# Перезагружаемся
sudo reboot
ROCm 6.1 - последняя версия, поддерживающая MI50. Устанавливаем:
# Добавляем репозиторий ROCm
wget https://repo.radeon.com/amdgpu-install/6.1/ubuntu/jammy/amdgpu-install_6.1.60100-1_all.deb
sudo apt install ./amdgpu-install_6.1.60100-1_all.deb
# Ставим ROCm
sudo amdgpu-install --usecase=rocm --no-dkms
# Проверяем установку
rocminfo
Если видите четыре карты MI50 в выводе - вы герой. Если нет - проверьте, что карты правильно сидят в слотах и получают питание.
4 Квантование: искусство сжатия гиганта
Скачиваем оригинальную модель DeepSeek-V3.2-671B. Нужен аккаунт на Hugging Face и много места на диске. Очень много.
# Устанавливаем инструменты
pip install transformers accelerate torch
# Скачиваем модель (готовьтесь ждать)
python -c "from transformers import AutoModelForCausalLM; model = AutoModelForCausalLM.from_pretrained('deepseek-ai/DeepSeek-V3.2-671B', torch_dtype=torch.bfloat16)"
Теперь квантование. Мы используем llama.cpp с поддержкой ROCm. Компилируем последнюю версию:
git clone https://github.com/ggerganov/llama.cpp
cd llama.cpp
make LLAMA_HIPBLAS=1 -j$(nproc)
Конвертируем модель в GGUF формат и квантуем до Q4_K_M:
# Конвертация в GGUF
python3 convert.py ./models/deepseek-v3.2-671b --outfile ./models/deepseek-v3.2-671b.gguf
# Квантование (это займет часы)
./quantize ./models/deepseek-v3.2-671b.gguf ./models/deepseek-v3.2-671b-q4_k_m.gguf q4_k_m
Размер файла после квантования: примерно 285 ГБ. Все еще огромно, но уже вменяемо.
5 Запуск: момент истины
Теперь распределяем слои модели между GPU и RAM. У нас 128 ГБ GPU памяти и 256 ГБ RAM. Значит, около 100 слоев можно загрузить в GPU, остальные - в RAM.
# Запускаем модель с распределением
./main -m ./models/deepseek-v3.2-671b-q4_k_m.gguf \
-ngl 100 \
-c 32768 \
-b 512 \
-t 48 \
--simple-io \
-p "Скажи, стоит ли собирать такой сервер в 2026 году?"
Ключевые параметры:
-ngl 100: загрузить 100 слоев в GPU (занимает ~115 ГБ)-c 32768: контекст 32K токенов (можно и 128K, но медленнее)-t 48: использовать 48 потоков CPU (у нас 32 ядра, 64 потока)-b 512: размер батча
Первая загрузка займет 10-15 минут. Не паникуйте. Модель инициализирует веса. Дальнейшие инференсы будут быстрее.
Что получим на выходе? Цифры
После недели настройки и оптимизации:
- Скорость генерации: 3-5 токенов в секунду для 32K контекста
- Потребление: 1100-1300W под нагрузкой
- Качество ответов: 95-97% от оригинальной модели в BF16
- Шум: как у пылесоса. Серьезно, думайте о звукоизоляции
Это не для чата в реальном времени. Это для research, анализа документов, batch processing. Но зато свой. Полностью.
Типичные грабли: куда не ступать
Я собрал три таких сервера. Вот что ломается чаще всего:
Ошибка 1: Карты MI50 перегреваются и троттлят. Решение: установить активные кулеры вместо пассивных. Да, придется модифицировать карты. Нет, гарантия не действует (если она вообще была).
Ошибка 2: ROCm не видит все карты. Проверьте /dev/kfd права. Часто помогает добавление пользователя в группы render и video.
Ошибка 3: Модель загружается, но генерация медленная. Скорее всего, слои загружаются в RAM вместо GPU. Увеличьте значение -ngl. Но не больше, чем позволяет память.
Альтернативы? Конечно
Не хотите возиться с б/у железом? Есть варианты:
- Аренда облака: в Selectel теперь есть флагманские серверы для AI с H100. Месяц аренды = стоимость нашего железа.
- Меньшая модель: DeepSeek Coder 33B отлично работает на Mac Mini M2 Pro, как в нашем сравнении апгрейдов.
- Совместная покупка: как в статье про четырех человек и восемь Blackwell.
Вопросы, которые зададут соседи
Счет за электричество не убьет? Будет +$100-150 в месяц при активном использовании. Все еще дешевле облака.
А если сломается? Вы научитесь ремонтировать. Или купите запасные части. Это хобби с элементами экстрима.
Когда окупится? Если бы вы использовали API DeepSeek-V3.2-671B по $0.12 за 1K токенов выходных данных, то при генерации 10 млн токенов в месяц - за 4-5 месяцев. Но это если считать только токены. Контроль и приватность не имеют цены.
Главное - начать. Купите сначала одну карту MI50, попробуйте запустить модель поменьше. Потом докупите остальное. К 2027 году, возможно, появится что-то лучше. Но навык сборки таких систем останется с вами навсегда. Как и гул вентиляторов под столом.