Зачем вообще это читать? Потому что вы собрались потратить деньги
Вы решили собрать свой первый компьютер для локального ИИ. Бюджет ограничен, но хочется мощности. На горизонте две карты: новая, но не топовая NVIDIA и свежая AMD. Интернет пестрит противоречивыми советами. Один говорит: "Бери NVIDIA, иначе ничего не запустишь". Другой кричит: "AMD дешевле, а ROCm уже догнал CUDA". Кому верить?
Правда в деталях. И в том, что для локальных LLM видеокарта — не просто "железка для игр". Это специализированный вычислительный ускоритель, и выбор здесь определяет не только FPS в играх, а то, какие модели вы вообще сможете запустить, с какой скоростью и сколько нервов потратите на настройку.
Главный нюанс, который все упускают: Локальные LLM — это не только инференс (генерация ответов). Это загрузка моделей весом в десятки гигабайт, квантование, тонкая настройка. И здесь экосистема решает все. Покупая видеокарту, вы покупаете доступ к этой экосистеме.
Что у них под капотом? Цифры против реальности
Сравнивать TFLOPS для LLM — всё равно что мерить скорость автомобиля по диаметру колёс. Бесполезно. Важны три вещи: объём видеопамяти (VRAM), пропускная способность памяти и поддержка конкретных инструкций фреймворками.
| Характеристика | NVIDIA RTX 5060 Ti (прогноз) | AMD RX 9060 XT (прогноз) |
|---|---|---|
| Видеопамять (VRAM) | 16 ГБ GDDR7 | 16 ГБ GDDR7 |
| Шина памяти | 128-bit | 128-bit |
| Пропускная способность | ~576 ГБ/с | ~576 ГБ/с |
| Архитектура | Blackwell (?) | RDNA 4 |
| TDP | ~160-180 Вт | ~150-170 Вт |
| Ключевая технология | CUDA, Tensor Cores | ROCm, Матричные ядра |
На бумаге — паритет. Одинаковый объём памяти, похожая пропускная. Значит, выбор сводится к софту? Не совсем. Шина 128-bit — это слабое место для LLM. Загрузка весов модели в память будет узким местом. Но об этом позже.
Экосистема: CUDA против ROCm. Война, где у NVIDIA пока нет конкурентов
Вот где собака зарыта. NVIDIA CUDA — это де-факто стандарт для машинного обучения. Подавляющее большинство фреймворков (PyTorch, TensorFlow) и библиотек для LLM (vLLM, llama.cpp с CUDA-бэкендом, ExLlamaV2) заточены под CUDA и используют Tensor Cores для ускорения матричных умножений.
Практический пример: вы хотите запустить свежую версию Qwen2.5-Coder-32B через vLLM для максимальной скорости. На RTX 5060 Ti это будет pip install vllm и запуск. На RX 9060 XT вам, возможно, придётся ждать несколько недель, пока vLLM выпустит стабильную поддержку новой архитектуры RDNA 4, или собирать всё самому.
1 Что запускается без проблем на NVIDIA?
- Любая модель в llama.cpp с бэкендом CUDA. Поддержка всех форматов квантования (Q4_K_M, Q8_0 и т.д.).
- vLLM — самый быстрый инференс-движок для больших батчей.
- ExLlamaV2 — идеально для 4-битных моделей, сумасшедшая скорость на Tensor Cores.
- TensorRT-LLM — если хотите выжать из карты всё, но потратить день на компиляцию графа.
- Automatic1111 (Stable Diffusion) — да, для генерации изображений тоже.
2 Что запускается на AMD (с оговорками)?
- llama.cpp с бэкендом ROCm. Работает, но скорость может быть ниже, особенно на новых архитектурах.
- PyTorch с поддержкой ROCm. Требует установки специальных сборок.
- Text Generation WebUI с плагином для ROCm. Нужна правильная версия драйверов.
- Прямая трансляция ваших нервных клеток в issues на GitHub. Шутка. Но в каждой шутке...
Если ваша цель — не изучение внутренностей фреймворков, а работа с моделями, NVIDIA даст вам меньше головной боли. Это факт, подтверждённый горьким опытом сообщества. Почитайте наш разбор AMD vs NVIDIA для локального ИИ в 2025, там всё разложено по полочкам.
Производительность в реальных задачах: 16 ГБ — это много или мало?
Обе карты имеют 16 ГБ. Этого достаточно для:
- Моделей 7B-13B параметров в 8-битном или даже 16-битном формате (без квантования).
- Моделей 34B параметров в 4-битном квантовании (Q4_K_M).
- Моделей 70B параметров только в сильном квантовании (Q3_K_S, Q2_K), что ощутимо бьёт по качеству.
Запомните: 16 ГБ — это комфортный минимум для 2025 года, но не более. Если вы планируете работать с моделями размером 70B и выше, вам нужно смотреть на карты с 24 ГБ+ (как RTX 4090 или RTX Pro 6000) или сразу планировать сборку на нескольких картах.
Скорость генерации (токенов в секунду) будет зависеть от оптимизации драйверов и фреймворков. На старте продаж RX 9060 XT может отставать от RTX 5060 Ti просто потому, что разработчики llama.cpp и vLLM ещё не успели всё настроить. Через полгода ситуация может выровняться.
Цена, энергопотребление и будущее
AMD традиционно предлагает более агрессивные цены. RX 9060 XT может быть на 15-25% дешевле аналогичной RTX 5060 Ti. Вопрос: стоит ли эта скидка потенциальных проблем с совместимостью?
Энергопотребление у обеих карт будет скромным (около 160 Вт). Это важно для сборки в компактном корпусе без топовой системы охлаждения.
А что насчёт будущего? NVIDIA продолжит доминировать в экосистеме. AMD будет пытаться догнать. Если вы покупаете карту на 2-3 года, RTX 5060 Ti — более безопасная ставка с точки зрения долгосрочной поддержки ПО.
Пошаговый план: как принять решение без паники
1 Определите свой уровень толерантности к боли
Вы готовы часами сидеть в терминале, править Makefile-ы и читать документацию ROCm? Если да — AMD может сэкономить деньги. Если слово "драйвер" вызывает у вас нервный тик — берите NVIDIA.
2 Проверьте свои планы на модели
Собираетесь в основном запускать 7B-13B модели для чата и кодинга? Обе карты справятся. Хотите потрогать 70B+ модели? Задумайтесь о карте с большим объёмом VRAM или о конфигурации с двумя картами (и тут NVLink может быть важен).
3 Изучите конкретные инструменты
Зайдите на GitHub llama.cpp, vLLM, Text Generation WebUI. Посмотрите открытые issues по запросу "ROCm" или "RDNA 4". Много багов? Поддержка помечена как experimental? Это красный флаг.
4 Не забудьте про остальные компоненты
Мощная видеокарта упирается в слабый процессор и медленную оперативку. Для LLM важна скорость ОЗУ (DDR5) и быстрый NVMe SSD для загрузки моделей. Сборка бюджетного AI-PC — здесь есть полезные советы по балансу компонентов.
Где вы точно обожжётесь: 3 фатальные ошибки новичка
- Купить AMD, а потом пытаться установить CUDA-версии библиотек. Это не сработает. ROCm и CUDA — это разные вселенные. Устанавливайте только ROCm-совместимые сборки PyTorch и других библиотек.
- Не проверить физические размеры карты. Современные GPU — огромные. Убедитесь, что выбранная карта влезет в ваш корпус и не перекроет слоты для оперативной памяти или другие разъёмы.
- Сэкономить на блоке питания. Возьмите БП с запасом по мощности (минимум на 200-300 Вт больше общего TDP системы) и от проверенного производителя. Нестабильное питание — причина случайных падений и ошибок при загрузке больших моделей.
Итог: что же брать?
Если коротко: для первого AI-PC я бы рекомендовал RTX 5060 Ti. Да, дороже. Но вы платите не за гигабайты памяти, а за время, которое не потратите на борьбу с настройкой ПО. Ваш первый опыт должен вдохновлять, а не отталкивать.
RX 9060 XT — выбор для энтузиастов, которые уже имели дело с ROCm, хотят сэкономить и готовы к приключениям. Или для тех, кто принципиально поддерживает открытые платформы.
Последний неочевидный совет: Не гонитесь за абсолютной новизной. Иногда выгоднее купить прошлогоднюю флагманскую карту (например, RTX 4080 Super с 16 ГБ) по скидке, чем новую mid-range модель. У флагманов шире шина памяти и больше вычислительных блоков, что для LLM часто важнее, чем архитектурные улучшения нового поколения.
Собирайте систему под свои задачи. И помните, что лучшая видеокарта — та, на которой вы сможете запустить нужную модель сегодня, а не через полгода после выхода драйверов.