Зачем вообще это читать? Потому что вы собрались потратить деньги

Вы решили собрать свой первый компьютер для локального ИИ. Бюджет ограничен, но хочется мощности. На горизонте две карты: новая, но не топовая NVIDIA и свежая AMD. Интернет пестрит противоречивыми советами. Один говорит: "Бери NVIDIA, иначе ничего не запустишь". Другой кричит: "AMD дешевле, а ROCm уже догнал CUDA". Кому верить?

Правда в деталях. И в том, что для локальных LLM видеокарта — не просто "железка для игр". Это специализированный вычислительный ускоритель, и выбор здесь определяет не только FPS в играх, а то, какие модели вы вообще сможете запустить, с какой скоростью и сколько нервов потратите на настройку.

Главный нюанс, который все упускают: Локальные LLM — это не только инференс (генерация ответов). Это загрузка моделей весом в десятки гигабайт, квантование, тонкая настройка. И здесь экосистема решает все. Покупая видеокарту, вы покупаете доступ к этой экосистеме.

Что у них под капотом? Цифры против реальности

Сравнивать TFLOPS для LLM — всё равно что мерить скорость автомобиля по диаметру колёс. Бесполезно. Важны три вещи: объём видеопамяти (VRAM), пропускная способность памяти и поддержка конкретных инструкций фреймворками.

Характеристика	NVIDIA RTX 5060 Ti (прогноз)	AMD RX 9060 XT (прогноз)
Видеопамять (VRAM)	16 ГБ GDDR7	16 ГБ GDDR7
Шина памяти	128-bit	128-bit
Пропускная способность	~576 ГБ/с	~576 ГБ/с
Архитектура	Blackwell (?)	RDNA 4
TDP	~160-180 Вт	~150-170 Вт
Ключевая технология	CUDA, Tensor Cores	ROCm, Матричные ядра

На бумаге — паритет. Одинаковый объём памяти, похожая пропускная. Значит, выбор сводится к софту? Не совсем. Шина 128-bit — это слабое место для LLM. Загрузка весов модели в память будет узким местом. Но об этом позже.

Экосистема: CUDA против ROCm. Война, где у NVIDIA пока нет конкурентов

Вот где собака зарыта. NVIDIA CUDA — это де-факто стандарт для машинного обучения. Подавляющее большинство фреймворков (PyTorch, TensorFlow) и библиотек для LLM (vLLM, llama.cpp с CUDA-бэкендом, ExLlamaV2) заточены под CUDA и используют Tensor Cores для ускорения матричных умножений.

💡

ROCm от AMD — это попытка создать открытую альтернативу. И она стала значительно лучше за последние годы. Но. Поддержка в популярных инструментах часто запаздывает, требует дополнительных танцев с бубном (сборка из исходников, патчи) и может сломаться после обновления драйверов. Если вы не готовы копаться в консоли и читать issues на GitHub — готовьтесь к боли.

Практический пример: вы хотите запустить свежую версию Qwen2.5-Coder-32B через vLLM для максимальной скорости. На RTX 5060 Ti это будет pip install vllm и запуск. На RX 9060 XT вам, возможно, придётся ждать несколько недель, пока vLLM выпустит стабильную поддержку новой архитектуры RDNA 4, или собирать всё самому.

1 Что запускается без проблем на NVIDIA?

Любая модель в llama.cpp с бэкендом CUDA. Поддержка всех форматов квантования (Q4_K_M, Q8_0 и т.д.).
vLLM — самый быстрый инференс-движок для больших батчей.
ExLlamaV2 — идеально для 4-битных моделей, сумасшедшая скорость на Tensor Cores.
TensorRT-LLM — если хотите выжать из карты всё, но потратить день на компиляцию графа.
Automatic1111 (Stable Diffusion) — да, для генерации изображений тоже.

2 Что запускается на AMD (с оговорками)?

llama.cpp с бэкендом ROCm. Работает, но скорость может быть ниже, особенно на новых архитектурах.
PyTorch с поддержкой ROCm. Требует установки специальных сборок.
Text Generation WebUI с плагином для ROCm. Нужна правильная версия драйверов.
Прямая трансляция ваших нервных клеток в issues на GitHub. Шутка. Но в каждой шутке...

Если ваша цель — не изучение внутренностей фреймворков, а работа с моделями, NVIDIA даст вам меньше головной боли. Это факт, подтверждённый горьким опытом сообщества. Почитайте наш разбор AMD vs NVIDIA для локального ИИ в 2025, там всё разложено по полочкам.

Производительность в реальных задачах: 16 ГБ — это много или мало?

Обе карты имеют 16 ГБ. Этого достаточно для:

Моделей 7B-13B параметров в 8-битном или даже 16-битном формате (без квантования).
Моделей 34B параметров в 4-битном квантовании (Q4_K_M).
Моделей 70B параметров только в сильном квантовании (Q3_K_S, Q2_K), что ощутимо бьёт по качеству.

Запомните: 16 ГБ — это комфортный минимум для 2025 года, но не более. Если вы планируете работать с моделями размером 70B и выше, вам нужно смотреть на карты с 24 ГБ+ (как RTX 4090 или RTX Pro 6000) или сразу планировать сборку на нескольких картах.

Скорость генерации (токенов в секунду) будет зависеть от оптимизации драйверов и фреймворков. На старте продаж RX 9060 XT может отставать от RTX 5060 Ti просто потому, что разработчики llama.cpp и vLLM ещё не успели всё настроить. Через полгода ситуация может выровняться.

Цена, энергопотребление и будущее

AMD традиционно предлагает более агрессивные цены. RX 9060 XT может быть на 15-25% дешевле аналогичной RTX 5060 Ti. Вопрос: стоит ли эта скидка потенциальных проблем с совместимостью?

Энергопотребление у обеих карт будет скромным (около 160 Вт). Это важно для сборки в компактном корпусе без топовой системы охлаждения.

А что насчёт будущего? NVIDIA продолжит доминировать в экосистеме. AMD будет пытаться догнать. Если вы покупаете карту на 2-3 года, RTX 5060 Ti — более безопасная ставка с точки зрения долгосрочной поддержки ПО.

Пошаговый план: как принять решение без паники

1 Определите свой уровень толерантности к боли

Вы готовы часами сидеть в терминале, править Makefile-ы и читать документацию ROCm? Если да — AMD может сэкономить деньги. Если слово "драйвер" вызывает у вас нервный тик — берите NVIDIA.

2 Проверьте свои планы на модели

Собираетесь в основном запускать 7B-13B модели для чата и кодинга? Обе карты справятся. Хотите потрогать 70B+ модели? Задумайтесь о карте с большим объёмом VRAM или о конфигурации с двумя картами (и тут NVLink может быть важен).

3 Изучите конкретные инструменты

Зайдите на GitHub llama.cpp, vLLM, Text Generation WebUI. Посмотрите открытые issues по запросу "ROCm" или "RDNA 4". Много багов? Поддержка помечена как experimental? Это красный флаг.

4 Не забудьте про остальные компоненты

Мощная видеокарта упирается в слабый процессор и медленную оперативку. Для LLM важна скорость ОЗУ (DDR5) и быстрый NVMe SSD для загрузки моделей. Сборка бюджетного AI-PC — здесь есть полезные советы по балансу компонентов.

Где вы точно обожжётесь: 3 фатальные ошибки новичка

Купить AMD, а потом пытаться установить CUDA-версии библиотек. Это не сработает. ROCm и CUDA — это разные вселенные. Устанавливайте только ROCm-совместимые сборки PyTorch и других библиотек.
Не проверить физические размеры карты. Современные GPU — огромные. Убедитесь, что выбранная карта влезет в ваш корпус и не перекроет слоты для оперативной памяти или другие разъёмы.
Сэкономить на блоке питания. Возьмите БП с запасом по мощности (минимум на 200-300 Вт больше общего TDP системы) и от проверенного производителя. Нестабильное питание — причина случайных падений и ошибок при загрузке больших моделей.

Итог: что же брать?

Если коротко: для первого AI-PC я бы рекомендовал RTX 5060 Ti. Да, дороже. Но вы платите не за гигабайты памяти, а за время, которое не потратите на борьбу с настройкой ПО. Ваш первый опыт должен вдохновлять, а не отталкивать.

RX 9060 XT — выбор для энтузиастов, которые уже имели дело с ROCm, хотят сэкономить и готовы к приключениям. Или для тех, кто принципиально поддерживает открытые платформы.

Последний неочевидный совет: Не гонитесь за абсолютной новизной. Иногда выгоднее купить прошлогоднюю флагманскую карту (например, RTX 4080 Super с 16 ГБ) по скидке, чем новую mid-range модель. У флагманов шире шина памяти и больше вычислительных блоков, что для LLM часто важнее, чем архитектурные улучшения нового поколения.

Собирайте систему под свои задачи. И помните, что лучшая видеокарта — та, на которой вы сможете запустить нужную модель сегодня, а не через полгода после выхода драйверов.

RTX 5060 Ti vs RX 9060 XT для локальных LLM: гайд по выбору GPU для первого AI-PC