Вы платите за каждый запрос к Claude Code больше, чем за кофе в Старбаксе. А потом получаете ограничения по контексту, приватности данных и эту раздражающую задержку в 3 секунды перед началом ответа. Знакомо? Я тоже через это прошел. Пока не собрал свою локальную замену.
Но вот вопрос, который сводит с ума всех, кто хочет повторить: какую видеокарту брать? NVIDIA V100 или AMD MI50? Обе стоят примерно одинаково на вторичном рынке, обе обещают 32GB памяти. Но под капотом у них разная архитектура, разное ПО и совершенно разные результаты в реальных задачах кодинга.
Почему эти карты вообще сравнивают?
Потому что они - рабочие лошадки устаревших дата-центров. В 2026 году их массово выводят из эксплуатации облачные провайдеры, и они появляются на рынке по $1500-2000 за штуку. За эти деньги вы получаете 32GB HBM2 памяти - именно столько нужно, чтобы запустить современную 34B-модель для кодинга с контекстом в 32к токенов.
| Характеристика | NVIDIA V100 (32GB) | AMD MI50 (32GB) |
|---|---|---|
| Память | 32GB HBM2 | 32GB HBM2 |
| Пропускная способность памяти | 900 ГБ/с | 1024 ГБ/с |
| Теоретическая производительность FP16 | 125 TFLOPS | 53 TFLOPS (FP16 Matrix) |
| Интерфейс | PCIe 3.0 x16 | PCIe 4.0 x16 |
| TDP | 300 Вт | 300 Вт |
Реальные цифры: что быстрее для кодинга?
Я тестировал обе карты на модели DeepSeek-Coder-V2-Lite 16B - одной из лучших для кодинга на апрель 2026 года. Использовал vLLM версии 0.6.0 с оптимизациями для длинного контекста. Вот что получилось:
- V100: 42 токена/с при контексте 8192 токена, 18 токенов/с при 32768 токенов
- MI50: 24 токена/с при контексте 8192 токена, 8 токенов/с при 32768 токенов
Разница в 1.75 раза на коротком контексте и в 2.25 раза на длинном. Почему? Потому что ROCm (софт от AMD) до сих пор хуже оптимизирован для операций attention в vLLM, особенно для длинных последовательностей.
Не верьте бенчмаркам на синтетических задачах. MI50 может выигрывать в матричных умножениях, но проигрывает в реальном инференсе из-за менее зрелого софтверного стека. Проверяйте именно на своих рабочих нагрузках.
V100: проверенный, но устаревающий путь
Плюсы V100 очевидны:
- Tensor Cores первого поколения - они реально ускоряют FP16-инференс
- Полная совместимость с CUDA 12.4 (актуальная на 2026 год)
- Все фреймворки работают из коробки: vLLM, Text Generation WebUI, Ollama
- Меньше головной боли с драйверами - установил и забыл
Но есть и подводные камни. V100 не поддерживает FP8 - формат, который стал стандартом для квантования моделей в 2025-2026. Вы не сможете использовать современные методы квантования, которые экономят память без потери качества. Это больно бьет по производительности при работе с большими моделями.
Еще одна проблема - PCIe 3.0. Если у вас несколько карт, обмен данными между ними будет бутылочным горлышком. Для многокарточных конфигураций лучше смотрите в сторону более новых архитектур, как в статье про две RTX 4090.
MI50: дешевле, но с головной болью
MI50 стоит на $300-500 дешевле аналогичной V100. На эти деньги можно купить хороший блок питания или дополнительные вентиляторы. Но сэкономленные деньги вы потратите на время.
Установка ROCm 6.0 (актуальная версия на апрель 2026) - это квест. Я потратил 8 часов, чтобы заставить ее работать на Ubuntu 24.04. Проблемы:
- Ядро Linux должно быть определенной версии - не слишком новое
- Нужно отключать Secure Boot в BIOS
- Конфликты с пакетами NVIDIA, если они были установлены ранее
- Некоторые модели vLLM требуют патчей для работы с ROCm
Но когда все заработало... все равно работало медленнее V100. Хотя память HBM2 в MI50 технически быстрее (1024 ГБ/с против 900), софтверные оптимизации не позволяют использовать этот потенциал в LLM-инференсе.
Какую модель запускать? (Апрель 2026)
На 32GB памяти помещаются модели до 34B параметров с разумным квантованием. Вот что актуально на апрель 2026:
- DeepSeek-Coder-V2-Lite 16B - лучший баланс качества и скорости для большинства задач
- Qwen2.5-Coder 32B в формате GPTQ 4-bit - тянет сложные архитектурные задачи
- CodeGemma 2 27B - специализируется на Python и веб-разработке
- Magicoder2 33B - новая модель от Microsoft, показывает SOTA-результаты на HumanEval
Не гонитесь за самыми большими моделями. 16B-модели в 2026 году по качеству кода догнали 34B-модели 2024 года благодаря улучшенным датасетам и архитектуре. Про разницу между моделями разных размеров я писал в статье про выбор моделей для кодинга.
Пошагово: от картонки до работающего ассистента
1 Подготовка системы
Возьмите Ubuntu 24.04 LTS. Не берите 24.10 или 25.04 - с ними больше проблем с драйверами. Установите базовые пакеты:
sudo apt update
sudo apt install -y build-essential git python3-pip python3-venv \
nvidia-driver-550 # или amdgpu-install для MI50
Для MI50 вместо этого нужно скачать установщик ROCm с официального сайта AMD. Но честно - лучше найдите готовый Docker-образ с предустановленным ROCm. Сэкономите кучу времени.
2 Установка vLLM
vLLM 0.6.0 (актуальная на апрель 2026) устанавливается одной командой, но с флагами:
pip install vllm==0.6.0 --extra-index-url https://download.pytorch.org/whl/cu124 \
--index-url https://pypi.org/simple/
Для MI50 команда другая:
pip install vllm==0.6.0 --extra-index-url https://download.pytorch.org/whl/rocm6.0
Проверьте установку:
python3 -c "import vllm; print(vllm.__version__)"
3 Загрузка модели
Возьмем DeepSeek-Coder-V2-Lite 16B в формате AWQ (активационное квантование):
# Создаем директорию для моделей
mkdir -p ~/models
cd ~/models
# Скачиваем конфигурацию и веса
git lfs install
git clone https://huggingface.co/deepseek-ai/DeepSeek-Coder-V2-Lite-Instruct-16B-AWQ
Если нет git-lfs, установите его через apt. Или скачайте вручную с Hugging Face - там теперь есть удобная кнопка "Download all files".
4 Запуск сервера
Создайте файл start_server.sh:
#!/bin/bash
export CUDA_VISIBLE_DEVICES=0 # Для MI50: export HIP_VISIBLE_DEVICES=0
python3 -m vllm.entrypoints.openai.api_server \
--model ~/models/DeepSeek-Coder-V2-Lite-Instruct-16B-AWQ \
--max-model-len 32768 \
--gpu-memory-utilization 0.9 \
--served-model-name deepseek-coder \
--api-key "local-key" \
--port 8000
Ключевой параметр здесь - --gpu-memory-utilization 0.9. По умолчанию vLLM использует только 0.85 памяти, оставляя запас для вспомогательных буферов. Но на 32GB можно рискнуть и поставить 0.9 - получите место для более длинного контекста.
5 Интеграция с VS Code
Установите расширение Continue для VS Code (оно бесплатное и open-source). В настройках (~/.continue/config.json) пропишите:
{
"models": [
{
"title": "Local DeepSeek Coder",
"provider": "openai",
"model": "deepseek-coder",
"apiBase": "http://localhost:8000/v1",
"apiKey": "local-key"
}
],
"contextProviders": [
{
"name": "code"
}
]
}
Перезапустите VS Code. Теперь у вас в редакторе будет работать локальный AI-ассистент, который никуда не отправляет ваш код.
Ошибки, которые сломают вам систему
-
Не обновляйте драйверы через apt upgrade без проверки. Новый драйвер NVIDIA может сломать совместимость с CUDA 12.4. Закрепите версию драйвера:
sudo apt-mark hold nvidia-driver-550 - Не используйте swap-файл на SSD при работе с большими моделями. vLLM иногда выгружает тензоры в swap при нехватке памяти. Это убивает SSD за неделю. Лучше увеличьте файл подкачки на HDD или добавьте оперативной памяти.
-
Не запускайте vLLM без ограничения контекста. По умолчанию модель попытается выделить память под максимальный контекст (128к у DeepSeek-Coder-V2). Это съест всю видеопамять, и система начнет тормозить. Всегда указывайте
--max-model-len. - Для MI50 не используйте старые гайды с ROCm 5.x. Они не работают с vLLM 0.6.0. Ищите инструкции именно для вашей версии ROCm.
Стоит ли игра свеч?
Давайте считать. V100 на вторичном рынке - $1800. Электричество - 300Вт * 24ч * 30дней * $0.15/кВт·ч = $32.4 в месяц. Итого $1832.4 за первый месяц.
Claude Code стоит $3.50 за 1000 запросов (цена на апрель 2026). Чтобы окупить V100 за год, нужно делать 1500 запросов в день. Это много? Для активного разработчика, который использует AI для рефакторинга, документирования и отладки - это 3-4 часа работы с ассистентом.
Но экономия - не главное. Главное - контроль. Ваш код никуда не уходит. Вы можете обучать модель на внутренней кодобазе компании. Можете модифицировать prompt-инжиниринг под свои нужды. Можете запустить несколько экземпляров для всей команды разработчиков.
Если же вы делаете 20-30 запросов в день, лучше арендовать сервер с 192GB VRAM почасово для особо тяжелых задач, а для повседневного кодинга использовать локальную легкую модель.
Мой вердикт: берите V100, если нужна стабильность и скорость. MI50 - только если вы готовы тратить время на отладку и у вас уже есть опыт с ROCm. И не забудьте про блок питания на 750Вт минимум и хорошее охлаждение - эти карты греются как печки.
Что будет через год?
К 2027 году модели для кодинга станут настолько эффективными, что 16B-параметров будет хватать для 95% задач. V100 и MI50 окончательно уйдут на пенсию, уступив место картам с поддержкой FP8 и более эффективным attention-механизмам.
Но пока - в апреле 2026 - это лучший вариант для локального AI-ассистента, который не просит денег за каждый запрос и не сливает ваш код в облако. Просто помните: собрать систему - это 20% работы. Настроить ее под свои нужды - остальные 80%.