«Купил 7900 XTX для Stable Diffusion, а теперь хочу LLM» — история каждого второго
Откройте любой тред на Reddit или форуме LocalLLaMA. Задайте вопрос про AMD для инференса языковых моделей. Первые три ответа будут: «Купи NVIDIA», «Верни пока не поздно» и мем с плачущим Хью Джекманом.
А потом кто-то тихо напишет: «У меня работает. 34 токена в секунду на Qwen2.5 7B». И начнется ад.
Девяносто комментариев с вопросами о версиях драйверов, флагах компиляции и проклятиях в адрес разработчиков ROCm. Это и есть современный ландшафт AMD для AI — территория контрастов, где энтузиасты с горящими глазами соседствуют с людьми, разбившими монитор об стену.
Главный парадокс 2025 года: видеокарты AMD технически способны на инференс LLM. Часто даже лучше, чем аналоги NVIDIA по цене. Но чтобы заставить их работать, нужно пройти квест сложностью «темные души на максималке».
Мемы против цифр: что на самом деле происходит
«AMD не поддерживает LLM» — это ложь. «На AMD всё работает из коробки» — это тоже ложь. Истина, как обычно, где-то посередине, но ближе к первой части.
Проблема не в железе. RDNA 3 архитектура в 7900 XTX или новые APU Strix Halo — это мощные штуки. Проблема в трех слоях софтового ада:
- ROCm — AMD-шный ответ CUDA. Теоретически должен давать доступ к вычислениям на GPU. Практически — поддерживает ограниченный список карт, требует танцев с бубном и ломается после обновления ядра Linux.
- Драйверы — отдельная религия. Adrenalin Edition для игр конфликтует с ROCm. Pro Edition стабильнее, но медленнее. В Windows вообще отдельный вид страдания.
- Фреймворки — llama.cpp добавила поддержку Vulkan для AMD. Это работает, но медленнее ROCm. vLLM начал добавлять поддержку ROCm, но она сырая. Ollama? Забудьте.
«А у меня работает»: карта выживания для смельчаков
Несмотря на всё, сообщество энтузиастов не просто выживает — оно процветает. На GitHub появляются новые форки llama.cpp с оптимизациями под AMD. На форумах собирают базу знаний по конкретным картам.
| Карта | Что работает | Основная проблема |
|---|---|---|
| RX 7900 XTX | ROCm 6.2+ с патчами, Vulkan | Официальная поддержка ROCm отсутствует |
| RX 6700/6800/6900 XT | Vulkan стабильно, ROCm через гирлянду флагов | Ограниченная видеопамять для больших моделей |
| Strix Halo APU | Vulkan, небольшие модели (до 13B) | Выделение VRAM из RAM, драйверы Windows |
| Старые карты (Vega, RDNA 1) | Только Vulkan, и то не всегда | Производительность ниже плинтуса |
Наш тест AMD 7900 XTX + ROCm в eGPU показал интересную вещь: Thunderbolt 3 не убивает производительность для LLM так, как для игр. Потому что основное ограничение — не пропускная способность шины, а вычисления на GPU. Но драйверы под eGPU — это отдельный круг ада.
ROCm: прекрасное далёко, которое иногда приближается
Вот что бесит больше всего: когда ROCm работает — он работает хорошо. Лучше Vulkan. Иногда сравнимо с CUDA на аналогичных картах NVIDIA. Но «когда» — это ключевое слово.
История типичного пользователя:
- Устанавливает Ubuntu свежей версии
- Ставит ROCm по официальной инструкции
- Получает ошибку «GPU not supported»
- Идет на форум, находит гигантскую ветку с хаками
- Патчит ядро, меняет версии библиотек, добавляет magic flags
- Запускает llama.cpp — работает!
- Обновляет систему — всё сломалось
- Плачет
AMD медленно, но движется в сторону улучшения ситуации. ROCm 6.3 добавил поддержку большего количества потребительских карт. Но пока это похоже на попытку построить небоскреб, начиная с десятого этажа, когда фундамент ещё в проекте.
Совет от бывалого: если вы не готовы тратить недели на настройку и отладку — берите NVIDIA. RTX 4060 с 16GB VRAM стоит как 7700 XT, но запустит любую модель из коробки. Это не реклама, это констатация факта.
А что если не ROCm? Альтернативы, которые спасают
Не все хотят становиться системными администраторами. Для них есть рабочие варианты:
1Vulkan backend в llama.cpp
Поддержка Vulkan в llama.cpp стала стабильнее. Она не требует ROCm, работает на любых картах AMD с поддержкой Vulkan 1.2. Производительность примерно на 20-30% ниже ROCm, но зато — без танцев.
2Windows + DirectML
Да, в Windows есть вариант через DirectML. LM Studio и некоторые другие лаунчеры поддерживают. Работает из коробки на последних драйверах Adrenalin. Ограничение — только Windows, и не все фреймворки поддерживают.
3CPU inference на AMD Ryzen
Звучит как кощунство, но слушайте. Новые Ryzen с большим кэшем и поддержкой AVX-512 показывают удивительные результаты на квантованных моделях. Особенно если у вас много оперативки. Наш гайд по запуску огромных LLM на CPU актуален как никогда.
Сообщество против корпораций: кто кого?
Самое интересное происходит на GitHub и в дискорд-чатах. Пока AMD двигает ROCm со скоростью ледника, энтузиасты создают:
- Скрипты автоматической установки ROCm для неподдерживаемых карт
- Патчи для ядра Linux, добавляющие поддержку новых APU
- Сборки llama.cpp с оптимизациями под конкретные архитектуры AMD
- Базы знаний по конкретным комбинациям железа и софта
Это напоминает ранние дни Linux, когда сообщество делало то, что корпорации считали ненужным или слишком сложным.
Если вы всё же решились идти по пути AMD для LLM, начинайте с практического гайда по избежанию основных ошибок. Потом переходите к оптимизации llama.cpp под AMD.
Будущее: свет в конце тоннеля или встречный поезд?
Прогноз на 2026 год: ситуация улучшится, но не радикально. AMD продолжит добавлять поддержку в ROCm, но фокус останется на профессиональных картах Instinct. Сообщество энтузиастов будет разрастаться, создавая более удобные инструменты.
Главный вопрос: а нужно ли это AMD? Рынок потребительских GPU для AI крошечный по сравнению с игровым. Большинство людей, которым нужны LLM локально, либо купят NVIDIA, либо будут использовать облака.
Но есть и оптимистичный сценарий. Если AMD решит, что AI на потребительских картах — это способ откусить кусок у NVIDIA, они могут ускориться. Выпустить драйверы «для AI», упростить установку ROCm, договориться с разработчиками фреймворков.
Пока же выбор остаётся за вами: стабильность и простота NVIDIA или приключения, хакерство и иногда — невероятная производительность за те же деньги на AMD.
Лично я держу на столе две системы. На одной — RTX 4090 для работы. На другой — RX 7900 XTX для экспериментов. Когда на AMD всё работает, я чувствую себя победителем. Когда ломается — вспоминаю, что у меня есть запасной вариант.
Может, в этом и есть смысл?