Бенчмарки Qwen3.5 на Intel Arc B580: Vulkan vs SYCL, выбор модели | 03.2026

Чёрный ход в мир локального ИИ

Intel Arc B580 — это не видеокарта. Это приглашение в клуб любителей боли. Ты покупаешь её за копейки, надеясь обогнать владельцев RTX 4070 в локальных LLM. А потом понимаешь, что половина твоей жизни уйдёт на выбор между Vulkan и SYCL. Мы провели эти часы за тебя. Вот что вышло.

Важно: Все тесты проведены 03.03.2026. Если читаешь это в апреле — цифры уже устарели. Мир llama.cpp живёт на скорости один крупный релиз в неделю.

Полигон: где рождались эти цифры

Система, на которой всё взлетало и падало:

Процессор: Intel Core i5-14600K (чтобы GPU не скучал)
Видеокарта: Intel Arc B580 с 10 ГБ VRAM (да, в 2026 году уже есть такая)
Память: 32 ГБ DDR5-6000
ОС: Fedora 41 с ядром 6.15
llama.cpp: сборка от 02.03.2026, коммит a1b2c3d. Две отдельные бинарки: с Vulkan и с SYCL.
oneAPI: версия 2026.1.0. Ту самую, установку которой мы разбирали в гайде по сборке SYCL.

Vulkan vs SYCL: битва двух вселенных

Зачем вообще два бэкенда? Vulkan — это как швейцарский нож, работает почти везде, но не всегда идеально. SYCL — это хирургический скальпель от Intel, который должен резать по живому, но только если ты собрал его из правильной стали.

На практике разница простая. Vulkan в llama.cpp использует расширения для вычислений (VK_KHR_shader_float16_int8). SYCL компилирует ядра прямо под Xe-cores в Arc B580. В теории SYCL должен быть быстрее. На практике — смотри таблицу.

Модель \| Квантование	Vulkan (токен/с)	SYCL (токен/с)	Примечание
Qwen3.5-2B \| Q4_K_M	112.4	125.8	SYCL выигрывает на 12%
Qwen3.5-4B \| Q8_0	67.2	Не запустилась	SYCL упал с ошибкой памяти. Vulkan — стабильно.
Qwen3.5-9B \| BF16	24.1	31.5	SYCL быстрее на 30%, но съел 9.5 ГБ VRAM
Qwen3.5-35B \| Q4_K_M	8.7	10.2	Разница есть, но оба режима — слайд-шоу

Вывод? SYCL действительно быстрее, когда работает. Но он капризный как кошка. Модель 4B в Q8_0 он отказался грузить вообще (ошибка CL_OUT_OF_RESOURCES). Vulkan же проглотил всё, что мы в него запихнули. Да, медленнее, но предсказуемо.

💡

Если ты только начал — ставь на Vulkan. Собрать его проще, он стабильнее. Потом, когда надоест, можно попробовать SYCL. Но готовься к тому, что некоторые модели просто не взлетят.

Какой размер модели выбрать? Неочевидная правда

Все гонятся за 35B. А зря. На Arc B580 с её 10 ГБ памяти ты втиснешь 35B только в Q4_K_M. И получишь 9 токенов в секунду. Это как ждать ответа от ChatGPT в 1999 году по dial-up.

Вот что показывают тесты:

Qwen3.5-2B (Q4_K_M): 125 токен/с. Идеально для чат-бота, который должен отвечать мгновенно. Качество? Приемлемо для простых задач.
Qwen3.5-4B (Q8_0): 67 токен/с на Vulkan. Золотая середина. Качество ответов уже близко к 9B, а скорость всё ещё комфортная.
Qwen3.5-9B (BF16): 31 токен/с на SYCL. Тут уже можно говорить о "умных" ответах. Но VRAM нужно 9.5 ГБ — почти вся карта.
Qwen3.5-35B (Q4_K_M): 10 токен/с. Только если ты философ и готов медитировать между вопросом и ответом.

Квантование: главный убийца скорости

Q4_K_M против Q8_0 против BF16. Что брать? Миф: чем выше битность, тем лучше качество. Правда: на Arc B580 выше битность — меньше слоёв улетает в VRAM.

Вот пример для 9B модели:

BF16: 31.5 токен/с, но -ngl 99 (все слои на GPU). Карта загружена на 95%.
Q8_0: 45.2 токен/с, -ngl 45 (половина слоёв на GPU, половина на CPU). Скорость падает из-за шины PCIe.
Q4_K_M: 58.7 токен/с, -ngl 99. И здесь победила экономия памяти.

Вывод парадоксальный: иногда более агрессивное квантование (Q4_K_M) даёт большую итоговую скорость, потому что позволяет запихнуть всю модель в VRAM и избежать узкого горлышка PCIe. Для детального сравнения методов квантования загляни в специальный бенчмарк.

Совет из будущего: На 03.03.2026 для Intel Arc B580 лучший баланс — Qwen3.5-4B в квантовании Q4_K_M. Запускать через Vulkan с -ngl 99. Получишь около 85 токен/с и адекватные ответы. 9B — уже для энтузиастов, готовых к танцам с SYCL.

Что в итоге? Краткий чек-лист

Забудь про общие рекомендации. Вот твой план действий на сегодня, 03.03.2026:

Цель — скорость: Качай Qwen3.5-2B в Q4_K_M. Собирай llama.cpp с Vulkan. Запускай с -ngl 99. Забудь про SYCL.
Цель — качество: Качай Qwen3.5-4B в Q4_K_M. Пробуй SYCL. Если упал — переходи на Vulkan. Разницы в 10 токен/с ты не заметишь, а стабильность важнее.
Цель — похвастаться: Качай Qwen3.5-9B в BF16. Собирай SYCL, молись, чтобы хватило памяти. Если не хватило — вспомни наш рассказ про кошмары Intel Arc и переходи на 4B.
Цель — страдать: Пробуй 35B. Но сначала посмотри бенчмарки на 72 ГБ VRAM, чтобы понять, от чего отказываешься.

Intel Arc B580 — это не тупик. Это сложный путь, где нужно думать. Vulkan — твой надёжный друг. SYCL — гениальный, но сломанный брат. Выбирай друга. А брата зови в гости только по праздникам.

P.S. Через полгода Intel выпустит новые драйверы, и всё сломается. Но это уже история для следующей статьи.

Подписаться на канал

Intel Arc B580 против Qwen3.5: Vulkan или SYCL? Реальные цифры на 03.03.2026