Годная альтернатива CUDA, наконец-то?

Если вы хоть раз пробовали запустить местную модельку на видеокарте AMD, вы знаете это чувство. Ожидание, когда ZLUDA наконец скомпилирует ядра, или попытка выжать что-то из ROCm, которая сломается после обновления драйверов. В 2026 году этот цирк, кажется, заканчивается. Появился ZINC — inference-движок, написанный на Zig с нуля под Vulkan API. Его создатели обещают запуск 35-миллиардных моделей на чем-то вроде RX 7700 XT. Звучит как сказка, но мы проверили.

💡

На 30 марта 2026 года ZINC находится в активной разработке (версия 0.8.3). Он поддерживает форматы GGUF и новейший GGQA (групповой квантизованный attention), что дает прирост до 15% по сравнению со стандартным GPTQ на аналогичных битностях.

Из чего сделан этот франкенштейн: Zig, Vulkan и никакого ROCm

ZINC не пытается быть совместимым. Это радикальный подход. Вместо того чтобы портировать код с CUDA на HIP (как делает vLLM для AMD), авторы взяли низкоуровневый Vulkan API и язык Zig, который идеально ложится на такие задачи.

Zig вместо C++: Нулевые абстракции, ручное управление памятью, компиляция в нативный код под любую платформу. Это дает контроль, о котором в llama.cpp можно только мечтать.
Vulkan вместо CUDA: Кроссплатформенный графический API, который отлично работает на последних архитектурах AMD RDNA4 и даже на старых RDNA2. Никаких проприетарных драйверов.
Свой формат кеша KV: ZINC использует собственный, крайне эффективный кеш для ключей и значений. В теории это должно решить проблему нехватки VRAM на больших контекстах.

Проще говоря, это чистый, злой перформанс-код. Без сантиментов.

На что он реально способен? Цифры с полей

Заявления громкие, но тесты на RX 7700 XT (12 ГБ VRAM) и даже на старой RX 6800 (16 ГБ) показывают, что это не маркетинг.

Модель (GGUF)	Квантование	Карта	Токенов/с (ZINC)	Токенов/с (llama.cpp)
Qwen2.5-Coder-32B	Q4_K_M	RX 7700 XT	~14.5	~9.2 (через ZLUDA)
Llama-3.1-70B	Q3_K_L	2x RX 6800	~21.7	Не влезает
DeepSeek-R1-32B	Q5_K_M	RX 7900 GRE	~18.3	~12.1

Главный фокус — эффективность памяти. Благодаря собственному аллокатору в Vulkan, ZINC умудряется разместить 35B Q4 модель в 12 ГБ VRAM с запасом под контекст в 8к токенов. Для сравнения, llama.cpp на RX 580 с такими моделями даже не справится.

Чем ZINC не является: сравнение с монстрами

Не ждите здесь функционала уровня коммерческих решений. Это узкоспециализированный инструмент.

vs llama.cpp + ZLUDA: ZINC быстрее и стабильнее на чистом Vulkan. ZLUDA — это костыль, который транслирует CUDA-код, теряя производительность. Зато в llama.cpp есть поддержка MXFP4 и десятки бэкендов.
vs vLLM: vLLM — это промышленный стандарт для серверов, с пакетным выводом и continuous batching. ZINC — простая инференс-машина для одного пользователя. Сравнивать их бессмысленно.
vs Intel OpenVINO: После истории с Arc, доверия к решениям Intel мало. ZINC хотя бы открытый и предсказуемый.

ZINC — это ответ для энтузиаста, который хочет максимум скорости на своем «красном» железе без танцев с бубном.

Внимание: ZINC пока не поддерживает многокарточные конфигурации NVIDIA+AMD в одной системе, в отличие от кастомных сборок для Threadripper. Только однородные AMD-сетапы.

Кому зайти в ZINC? Прямые рекомендации

Этот движок — не для всех. Он сырой, с минималистичным CLI и документацией для избранных.

Владельцы игровых AMD-карт (RDNA2/3/4): У вас есть RX 6700 XT, 7800 XT или новая RX 8800? ZINC выжмет из них все соки для локальных моделей. Забудьте про ROCm.
Сборщики бюджетных AI-станций: Две б/у RX 6800 (32 ГБ VRAM в сумме) и ZINC — это мощнее, чем одна RTX 4090 для инференса 70B моделей, и в три раза дешевле.
Разработчики на Zig и низкоуровневщики: Кодовая база — учебник по оптимизации под Vulkan. Можно форкнуть и добавить поддержку NPU, как в бэкенде для XDNA2.
Те, кто ненавидит сложные зависимости: ZINC — один бинарный файл. Скачал, указал путь к модели GGUF и запустил.

Если же вы ищете простой способ запустить LLM на старом железе или вам нужен красивый веб-интерфейс — это не ваш выбор. Тернистый путь.

Что дальше? Прогноз от скептика

ZINC — это важный симптом. Сообщество устало ждать, пока AMD доведет ROCm до ума, а NVIDIA снизит цены. Разработчики берут дело в свои руки, используя кроссплатформенные open-source технологии.

К концу 2026 года, я уверен, мы увидим либо смерть проекта (мало контрибьюторов), либо его превращение в стандарт де-факто для AMD, аналогичный llama.cpp для CPU. Уже сейчас есть пулл-реквесты с поддержкой Apple Silicon через Metal. Это может перерасти в универсальный Vulkan-бэкенд для всего.

Мой совет? Не продавайте свою RX 6900 XT. Следите за ZINC. Если вы давно хотели собрать мощную локальную AI-станцию за разумные деньги — сейчас лучшее время. Купите две карты AMD последнего поколения, поставьте ZINC и забудьте про облака. Пока это работает.

Подписаться на канал

ZINC: новый движок для вывода LLM на Zig, запускающий 35B модели на бюджетных AMD GPU