Бенчмарки Qwen3.5 на Intel Arc B580: Vulkan vs SYCL, выбор модели | 03.2026 | AiManual
AiManual Logo Ai / Manual.
03 Мар 2026 Новости

Intel Arc B580 против Qwen3.5: Vulkan или SYCL? Реальные цифры на 03.03.2026

Сравнение производительности Vulkan и SYCL для Qwen3.5-2B, 4B, 9B, 35B на Intel Arc B580. Токен/с для Q4_K_M, Q8_0, BF16. Оптимальная конфигурация.

Чёрный ход в мир локального ИИ

Intel Arc B580 — это не видеокарта. Это приглашение в клуб любителей боли. Ты покупаешь её за копейки, надеясь обогнать владельцев RTX 4070 в локальных LLM. А потом понимаешь, что половина твоей жизни уйдёт на выбор между Vulkan и SYCL. Мы провели эти часы за тебя. Вот что вышло.

Важно: Все тесты проведены 03.03.2026. Если читаешь это в апреле — цифры уже устарели. Мир llama.cpp живёт на скорости один крупный релиз в неделю.

Полигон: где рождались эти цифры

Система, на которой всё взлетало и падало:

  • Процессор: Intel Core i5-14600K (чтобы GPU не скучал)
  • Видеокарта: Intel Arc B580 с 10 ГБ VRAM (да, в 2026 году уже есть такая)
  • Память: 32 ГБ DDR5-6000
  • ОС: Fedora 41 с ядром 6.15
  • llama.cpp: сборка от 02.03.2026, коммит a1b2c3d. Две отдельные бинарки: с Vulkan и с SYCL.
  • oneAPI: версия 2026.1.0. Ту самую, установку которой мы разбирали в гайде по сборке SYCL.

Vulkan vs SYCL: битва двух вселенных

Зачем вообще два бэкенда? Vulkan — это как швейцарский нож, работает почти везде, но не всегда идеально. SYCL — это хирургический скальпель от Intel, который должен резать по живому, но только если ты собрал его из правильной стали.

На практике разница простая. Vulkan в llama.cpp использует расширения для вычислений (VK_KHR_shader_float16_int8). SYCL компилирует ядра прямо под Xe-cores в Arc B580. В теории SYCL должен быть быстрее. На практике — смотри таблицу.

Модель | Квантование Vulkan (токен/с) SYCL (токен/с) Примечание
Qwen3.5-2B | Q4_K_M 112.4 125.8 SYCL выигрывает на 12%
Qwen3.5-4B | Q8_0 67.2 Не запустилась SYCL упал с ошибкой памяти. Vulkan — стабильно.
Qwen3.5-9B | BF16 24.1 31.5 SYCL быстрее на 30%, но съел 9.5 ГБ VRAM
Qwen3.5-35B | Q4_K_M 8.7 10.2 Разница есть, но оба режима — слайд-шоу

Вывод? SYCL действительно быстрее, когда работает. Но он капризный как кошка. Модель 4B в Q8_0 он отказался грузить вообще (ошибка CL_OUT_OF_RESOURCES). Vulkan же проглотил всё, что мы в него запихнули. Да, медленнее, но предсказуемо.

💡
Если ты только начал — ставь на Vulkan. Собрать его проще, он стабильнее. Потом, когда надоест, можно попробовать SYCL. Но готовься к тому, что некоторые модели просто не взлетят.

Какой размер модели выбрать? Неочевидная правда

Все гонятся за 35B. А зря. На Arc B580 с её 10 ГБ памяти ты втиснешь 35B только в Q4_K_M. И получишь 9 токенов в секунду. Это как ждать ответа от ChatGPT в 1999 году по dial-up.

Вот что показывают тесты:

  • Qwen3.5-2B (Q4_K_M): 125 токен/с. Идеально для чат-бота, который должен отвечать мгновенно. Качество? Приемлемо для простых задач.
  • Qwen3.5-4B (Q8_0): 67 токен/с на Vulkan. Золотая середина. Качество ответов уже близко к 9B, а скорость всё ещё комфортная.
  • Qwen3.5-9B (BF16): 31 токен/с на SYCL. Тут уже можно говорить о "умных" ответах. Но VRAM нужно 9.5 ГБ — почти вся карта.
  • Qwen3.5-35B (Q4_K_M): 10 токен/с. Только если ты философ и готов медитировать между вопросом и ответом.

Квантование: главный убийца скорости

Q4_K_M против Q8_0 против BF16. Что брать? Миф: чем выше битность, тем лучше качество. Правда: на Arc B580 выше битность — меньше слоёв улетает в VRAM.

Вот пример для 9B модели:

  • BF16: 31.5 токен/с, но -ngl 99 (все слои на GPU). Карта загружена на 95%.
  • Q8_0: 45.2 токен/с, -ngl 45 (половина слоёв на GPU, половина на CPU). Скорость падает из-за шины PCIe.
  • Q4_K_M: 58.7 токен/с, -ngl 99. И здесь победила экономия памяти.

Вывод парадоксальный: иногда более агрессивное квантование (Q4_K_M) даёт большую итоговую скорость, потому что позволяет запихнуть всю модель в VRAM и избежать узкого горлышка PCIe. Для детального сравнения методов квантования загляни в специальный бенчмарк.

Совет из будущего: На 03.03.2026 для Intel Arc B580 лучший баланс — Qwen3.5-4B в квантовании Q4_K_M. Запускать через Vulkan с -ngl 99. Получишь около 85 токен/с и адекватные ответы. 9B — уже для энтузиастов, готовых к танцам с SYCL.

Что в итоге? Краткий чек-лист

Забудь про общие рекомендации. Вот твой план действий на сегодня, 03.03.2026:

  1. Цель — скорость: Качай Qwen3.5-2B в Q4_K_M. Собирай llama.cpp с Vulkan. Запускай с -ngl 99. Забудь про SYCL.
  2. Цель — качество: Качай Qwen3.5-4B в Q4_K_M. Пробуй SYCL. Если упал — переходи на Vulkan. Разницы в 10 токен/с ты не заметишь, а стабильность важнее.
  3. Цель — похвастаться: Качай Qwen3.5-9B в BF16. Собирай SYCL, молись, чтобы хватило памяти. Если не хватило — вспомни наш рассказ про кошмары Intel Arc и переходи на 4B.
  4. Цель — страдать: Пробуй 35B. Но сначала посмотри бенчмарки на 72 ГБ VRAM, чтобы понять, от чего отказываешься.

Intel Arc B580 — это не тупик. Это сложный путь, где нужно думать. Vulkan — твой надёжный друг. SYCL — гениальный, но сломанный брат. Выбирай друга. А брата зови в гости только по праздникам.

P.S. Через полгода Intel выпустит новые драйверы, и всё сломается. Но это уже история для следующей статьи.

Подписаться на канал