Введение: Вековая война на новом фронте

Выбор видеокарты для локального запуска больших языковых моделей (LLM) — это не просто вопрос производительности. Это выбор экосистемы, уровня поддержки и, в конечном счёте, вашего личного времени, которое вы готовы потратить на отладку и настройку. Долгие годы NVIDIA безраздельно властвовала здесь благодаря CUDA и оптимизированным библиотекам. Но 2025 год принёс серьёзные изменения: AMD активно развивает ROCm, а сообщество создаёт новые мосты совместимости. Давайте разберёмся, что из этого получилось.

Проблема: Покупая видеокарту для локального ИИ, вы выбираете между «работает из коробки» (NVIDIA) и «потенциально дешевле, но нужно повозиться» (AMD). Вопрос в том, насколько сильно «повозиться» в 2025 году.

Архитектурные различия: Почему CUDA стала стандартом де-факто

CUDA — это не просто API, это целая вселенная: cuDNN, cuBLAS, TensorRT. Разработчики фреймворков (PyTorch, TensorFlow) десятилетиями оптимизировали код под эту экосистему. У AMD есть ROCm (Radeon Open Compute) — открытая платформа, которая пытается повторить этот успех. Главная проблема ROCm исторически заключалась в ограниченной поддержке потребительских карт и необходимости сборки из исходников.

💡

В 2025 году ситуация улучшилась: ROCm 6.x официально поддерживает карты серии RX 7000 и некоторые модели RX 6000. Установка под Linux стала проще, но под Windows путь всё ещё тернист. Для сравнения, CUDA работает везде, и даже прекращение поддержки старых архитектур не сильно повлияло на основную массу пользователей.

Совместимость ПО: LM Studio, Ollama и другие

Именно здесь кроется главный камень преткновения. Популярные инструменты для локального запуска LLM изначально заточены под CUDA.

LM Studio: Нативно поддерживает только NVIDIA через CUDA. Для AMD требуется использование бэкенда через llama.cpp с поддержкой Vulkan или ROCm, что означает ручную компиляцию и потенциально меньшую производительность.
Ollama: Начиная с версии 0.1.30, добавилась экспериментальная поддержка ROCm для Linux. Поддержка стабильна для карт серии RX 7000 и некоторых серверных ускорителей.
текст-generation-webui (oobabooga): Поддерживает ROCm через расширения, но требует ручной настройки окружения.

Вывод: для NVIDIA путь — скачать и запустить. Для AMD — скачать, настроить переменные окружения, возможно, скомпилировать, и затем запустить. Разница в удобстве всё ещё огромна.

Производительность: Цифры против удобства

Если абстрагироваться от сложности настройки, какова реальная разница в скорости? Всё зависит от задачи и оптимизации.

Задача (Модель: Llama 3.1 8B)	NVIDIA RTX 4070 Ti Super	AMD RX 7900 XTX	Комментарий
Токенов/с (FP16)	~45-50	~35-40	NVIDIA впереди благодаря Tensor Cores и лучшей оптимизации кернелов.
Токенов/с (INT4 через GPTQ)	~80-90	~50-60	Квантование — сильная сторона CUDA. Поддержка EXL2 для AMD ограничена.
Загрузка модели в VRAM	Мгновенно	Может быть задержка	Драйверы и стек ROCm иногда добавляют оверхед.

Для более мощных конфигураций стоит изучить наше сравнение RTX Pro 6000 и RTX 4090. Если вы думаете о масштабировании на несколько карт, материал про стратегии масштабирования будет крайне полезен.

Пошаговый план: Настройка AMD RX 7000 для локального ИИ под Linux

Если вы готовы к приключениям, вот базовый план для запуска Llama-моделей на AMD под Ubuntu 22.04/24.04. Это не гарантия, а дорожная карта.

1 Подготовка системы и установка ROCm

Убедитесь, что у вас установлены последние версии ядра и проприетарные драйверы AMD.

sudo apt update && sudo apt upgrade -y
# Добавление репозитория ROCm
wget https://repo.radeon.com/amdgpu-install/latest/ubuntu/jammy/amdgpu-install_latest.deb
sudo apt install ./amdgpu-install_latest.deb -y
# Установка ROCm (минимальный набор для машинного обучения)
sudo amdgpu-install --usecase=rocm,mlsdk --no-dkms

После перезагрузки проверьте установку командой rocminfo и rocm-smi. Убедитесь, что ваша карта определена.

2 Установка PyTorch с поддержкой ROCm

Официальный PIP-пакет PyTorch для ROCm.

pip3 install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/rocm6.1

3 Сборка и установка llama.cpp с поддержкой HIP (ROCm)

Это ключевой шаг для работы многих фронтендов, включая LM Studio в режиме совместимости.

git clone https://github.com/ggerganov/llama.cpp
cd llama.cpp
mkdir build && cd build
# Важно: Укажите правильный путь к ROCm
cmake .. -DLLAMA_HIPBLAS=ON -DCMAKE_PREFIX_PATH=/opt/rocm -DAMDGPU_TARGETS="gfx1100" # gfx1100 для RX 7900 XTX
make -j$(nproc)

4 Запуск модели через llama.cpp

Конвертируйте модель в формат GGUF и запустите.

# Конвертация (требуется Python)
pip install -r ../requirements.txt
python3 ../convert.py /путь/к/модели --outtype f16 --outfile /путь/к/модели.gguf
# Запуск инференса с использованием GPU AMD
./main -m /путь/к/модели.gguf -n 128 -t 10 -ngl 99 --color -c 2048 -b 512 --temp 0.7 --repeat_penalty 1.1 -p "### Instruction:"

Важно: Флаг -ngl 99 пытается загрузить все слои в VRAM. Следите за использованием памяти через rocm-smi. Если памяти не хватает, уменьшите количество слоев (-ngl 50).

Нюансы и возможные ошибки

Ошибка «hipErrorNoBinaryForGpu»: Указывает на неправильную цель компиляции (AMDGPU_TARGETS). Узнайте архитектуру вашей карты (rocminfo | grep gfx) и укажите её при сборке.
Нехватка памяти при загрузке слоёв: Драйверы ROCm могут резервировать больше памяти для системных нужд, чем драйверы NVIDIA. Используйте --split-mode none или уменьшайте -ngl.
Низкая производительность в Windows: Поддержка ROCm в Windows крайне ограничена. Для серьёзной работы с AMD под локальный ИИ выбирайте Linux.
Отсутствие поддержки некоторых методов квантования: GPTQ, AWQ часто требуют специфических CU-ядер. Альтернативы (например, через llama.cpp) могут быть медленнее.

Перед покупкой железа проанализируйте, во что вам обойдётся его содержание: наш калькулятор окупаемости железа поможет принять взвешенное решение.

Заключение: Паритет? Ещё нет. Ад? Уже не совсем.

В 2025 году разрыв между AMD и NVIDIA для локального ИИ сократился, но не исчез. Если вы энтузиаст, готовый копаться в консоли, компилировать код и мириться с подводными камнями ради потенциальной экономии или принципиальной поддержки открытых стандартов — AMD стала жизнеспособным вариантом, особенно под Linux.

Если же вам нужен стабильный, предсказуемый инструмент «работающий здесь и сейчас» для исследований, разработки или ежедневного использования — NVIDIA с её CUDA остаётся безальтернативным выбором. Экосистема, включая такие технологии как AETHER-X, продолжает задавать темп.

Окончательный вердикт: Паритет по производительности в сырых операциях близок, но паритет по удобству и широте экосистемы — всё ещё далёкая цель. Выбирайте NVIDIA для продуктивной работы, AMD — для экспериментов и поддержки открытой платформы.

FAQ: Частые вопросы

1. Какая карта AMD лучше всего подходит для локального ИИ в 2025?

RX 7900 XTX (24 ГБ) — флагман с максимальным объёмом VRAM. Для более бюджетного варианта рассмотрите RX 7900 GRE (16 ГБ) или RX 7800 XT (16 ГБ). Убедитесь, что выбранная модель официально поддерживается ROCm.

2. Можно ли использовать две карты AMD для увеличения памяти, как NVLink у NVIDIA?

Технологии, аналогичной NVLink, у AMD для потребительских карт нет. Объединить память можно только на уровне ПО (например, в llama.cpp с помощью --split-mode layer), но это добавит задержку на коммуникацию через PCIe. Подробнее о multi-GPU в статье про NVLink для двух RTX 3090.

3. Стоит ли ждать следующего поколения карт AMD (RDNA 4) для ИИ?

Ожидается, что RDNA 4 продолжит улучшать поддержку матричных операций (AI Accelerators) и оптимизацию ROCm. Однако, учитывая инерцию экосистемы, вряд ли они смогут моментально переломить ситуацию в свою пользу. Мониторьте анонсы и тесты.

4. А как насчёт NPU в новых процессорах? Это альтернатива?

NPU (нейропроцессоры) в CPU AMD Ryzen и Intel Core отлично подходят для лёгких задач (транскрипция, классификация изображений), но их производительность и память несопоставимы с дискретными GPU для запуска LLM. Подробный разбор в статье NPU против GPU.

AMD vs NVIDIA для локального ИИ в 2025: наконец-то паритет или всё ещё ад?