Наконец-то. CUDA на AMD без танцев с бубном

Если у вас есть видеокарта AMD и вы хоть раз пытались запустить что-то вроде llama.cpp, вы знаете эту боль. Мир поделился на два лагеря: счастливые обладатели NVIDIA, которые просто ставят CUDA и получают максимальную скорость, и все остальные. Мы, владельцы AMD, годами выбирали между капризным ROCm, который поддерживает только свежие карты, и Vulkan-бэкендом, который работает везде, но медленнее. Пока не появился ZLUDA.

ZLUDA — это не новый бэкенд для llama.cpp. Это переводчик. Он берёт код, написанный для CUDA, и заставляет его работать на AMD GPU, подменяя вызовы CUDA API на вызовы ROCm. Без переписывания. Без перекомпиляции. Просто запускаешь.

Как это работает? Магия совместимости

Представьте, что у вас есть программа, которая говорит только по-английски (CUDA), а ваш железный помощник понимает только по-немецки (ROCm). ZLUDA — это синхронный переводчик, который сидит между ними и переводит фразы в реальном времени. Технически — это библиотека-прослойка (compatibility layer), которая перехватывает вызовы функций CUDA (cudaMalloc, cudaMemcpy, kernel launches) и транслирует их в эквивалентные вызовы HIP/ROCm.

💡

Ключевой момент: ZLUDA работает с уже скомпилированными бинарниками. Вам не нужны исходники проекта. Если у вас есть готовая сборка llama.cpp с поддержкой CUDA (например, скачанная с официального сайта), вы можете заставить её работать на AMD, просто подменив системные библиотеки.

ZLUDA vs Vulkan vs ROCm: что выбрать в 2025?

Давайте расставим точки над i. У нас теперь три пути для запуска llama.cpp на AMD.

Критерий	ZLUDA	ROCm Бэкенд	Vulkan Бэкенд
Принцип работы	Совместимость CUDA→ROCm	Нативная поддержка HIP	Графический API общего назначения
Простота	Высокая (запуск готовых бинарников)	Низкая (нужна сборка из исходников)	Средняя (драйверы обычно есть)
Производительность	~95% от нативного ROCm	Максимальная (оптимизировано под AMD)	Хуже (общий API, неспециализированный)
Поддержка карт	Зависит от ROCm (обычно RDNA 2/3)	Официально только RDNA 2/3, CDNA	Широкая (RDNA 1/2/3, старые GCN)
Идеальный сценарий	Запуск проприетарного ПО под CUDA	Разработка и максимальная скорость	Старое железо или кроссплатформенность

ZLUDA выигрывает в одном — в лени. Не хочешь разбираться с тонкостями сборки ROCm-бэкенда? Скачай готовую CUDA-сборку llama.cpp, поставь ZLUDA — и работай. Это как найти чит-код в сложной игре.

Где спрятаны грабли? Ограничения ZLUDA

Всё звучит слишком хорошо, чтобы быть правдой. И это почти так. ZLUDA — не серебряная пуля.

Не 100% покрытие CUDA API. Некоторые специфичные или новые функции CUDA могут отсутствовать. Если llama.cpp их использует — будет падение.
Зависит от ROCm. Под капотом ZLUDA всё равно использует ROCm драйвер. Если ваша карта не поддерживается ROCm (например, старые RX 5000 серии), ZLUDA не поможет. Проверьте список совместимости.
Накладные расходы. Перевод вызовов добавляет небольшую задержку. В большинстве случаев это 3-7% потерь производительности против нативного ROCm. Но против Vulkan — всё равно быстрее.
Стабильность. Это всё ещё развивающийся проект. Могут быть странные баги, которых нет в нативных бэкендах.

Практический совет: сначала попробуйте собрать llama.cpp с ROCm-бэкендом. Если не получается или лень — тогда ZLUDA. Не используйте ZLUDA как основной инструмент для продакшена, если есть возможность использовать нативные решения.

Кому подойдёт ZLUDA? Портрет пользователя

Этот инструмент создан для конкретных людей. Узнаёте себя?

Владелец современной AMD-карты (RX 6000/7000), который ненавидит компиляцию. Скачал бинарник — запустил. Всё.
Человек, который работает с закрытым ПО, доступным только в CUDA-сборках. Теперь можно попробовать запустить его на AMD.
Разработчик, тестирующий кроссплатформенность своего CUDA-кода. Быстрая проверка, будет ли работать на AMD без переписывания.
Энтузиаст, у которого уже настроен ROCm, но хочется поиграть с софтом из мира NVIDIA. ZLUDA открывает доступ к целой экосистеме.

Если же вы готовы потратить время на тонкую настройку сборки под своё железо — ROCm-бэкенд даст вам больше контроля и, вероятно, лучшую производительность в долгосрочной перспективе.

Что дальше? Будущее совместимости

ZLUDA — симптом. Симптом того, что индустрия устала от монополии CUDA. NVIDIA десятилетиями строила стенedный сад, и теперь появляются инструменты, которые позволяют из него сбежать.

Дальше будет два пути. Либо разработчики основных фреймворков (вроде llama.cpp) будут активнее поддерживать нативные бэкенды под AMD, делая инструменты вроде ZLUDA менее актуальными. Либо ZLUDA и аналогичные проекты станут настолько хороши, что разница между CUDA и ROCm для конечного пользователя исчезнет. Я ставлю на второе. Потому что лень — главный двигатель прогресса.

Пока же, если у вас валяется AMD-карта и вы хотите погонять свежие модели без головной боли — ZLUDA ваш выбор. Это не идеально. Но это работает. И иногда этого достаточно.

ZLUDA для llama.cpp: ускорение LLM на AMD GPU без переписывания кода