Чёрный ход в мир локального ИИ
Intel Arc B580 — это не видеокарта. Это приглашение в клуб любителей боли. Ты покупаешь её за копейки, надеясь обогнать владельцев RTX 4070 в локальных LLM. А потом понимаешь, что половина твоей жизни уйдёт на выбор между Vulkan и SYCL. Мы провели эти часы за тебя. Вот что вышло.
Важно: Все тесты проведены 03.03.2026. Если читаешь это в апреле — цифры уже устарели. Мир llama.cpp живёт на скорости один крупный релиз в неделю.
Полигон: где рождались эти цифры
Система, на которой всё взлетало и падало:
- Процессор: Intel Core i5-14600K (чтобы GPU не скучал)
- Видеокарта: Intel Arc B580 с 10 ГБ VRAM (да, в 2026 году уже есть такая)
- Память: 32 ГБ DDR5-6000
- ОС: Fedora 41 с ядром 6.15
- llama.cpp: сборка от 02.03.2026, коммит
a1b2c3d. Две отдельные бинарки: с Vulkan и с SYCL. - oneAPI: версия 2026.1.0. Ту самую, установку которой мы разбирали в гайде по сборке SYCL.
Vulkan vs SYCL: битва двух вселенных
Зачем вообще два бэкенда? Vulkan — это как швейцарский нож, работает почти везде, но не всегда идеально. SYCL — это хирургический скальпель от Intel, который должен резать по живому, но только если ты собрал его из правильной стали.
На практике разница простая. Vulkan в llama.cpp использует расширения для вычислений (VK_KHR_shader_float16_int8). SYCL компилирует ядра прямо под Xe-cores в Arc B580. В теории SYCL должен быть быстрее. На практике — смотри таблицу.
| Модель | Квантование | Vulkan (токен/с) | SYCL (токен/с) | Примечание |
|---|---|---|---|
| Qwen3.5-2B | Q4_K_M | 112.4 | 125.8 | SYCL выигрывает на 12% |
| Qwen3.5-4B | Q8_0 | 67.2 | Не запустилась | SYCL упал с ошибкой памяти. Vulkan — стабильно. |
| Qwen3.5-9B | BF16 | 24.1 | 31.5 | SYCL быстрее на 30%, но съел 9.5 ГБ VRAM |
| Qwen3.5-35B | Q4_K_M | 8.7 | 10.2 | Разница есть, но оба режима — слайд-шоу |
Вывод? SYCL действительно быстрее, когда работает. Но он капризный как кошка. Модель 4B в Q8_0 он отказался грузить вообще (ошибка CL_OUT_OF_RESOURCES). Vulkan же проглотил всё, что мы в него запихнули. Да, медленнее, но предсказуемо.
Какой размер модели выбрать? Неочевидная правда
Все гонятся за 35B. А зря. На Arc B580 с её 10 ГБ памяти ты втиснешь 35B только в Q4_K_M. И получишь 9 токенов в секунду. Это как ждать ответа от ChatGPT в 1999 году по dial-up.
Вот что показывают тесты:
- Qwen3.5-2B (Q4_K_M): 125 токен/с. Идеально для чат-бота, который должен отвечать мгновенно. Качество? Приемлемо для простых задач.
- Qwen3.5-4B (Q8_0): 67 токен/с на Vulkan. Золотая середина. Качество ответов уже близко к 9B, а скорость всё ещё комфортная.
- Qwen3.5-9B (BF16): 31 токен/с на SYCL. Тут уже можно говорить о "умных" ответах. Но VRAM нужно 9.5 ГБ — почти вся карта.
- Qwen3.5-35B (Q4_K_M): 10 токен/с. Только если ты философ и готов медитировать между вопросом и ответом.
Квантование: главный убийца скорости
Q4_K_M против Q8_0 против BF16. Что брать? Миф: чем выше битность, тем лучше качество. Правда: на Arc B580 выше битность — меньше слоёв улетает в VRAM.
Вот пример для 9B модели:
- BF16: 31.5 токен/с, но
-ngl 99(все слои на GPU). Карта загружена на 95%. - Q8_0: 45.2 токен/с,
-ngl 45(половина слоёв на GPU, половина на CPU). Скорость падает из-за шины PCIe. - Q4_K_M: 58.7 токен/с,
-ngl 99. И здесь победила экономия памяти.
Вывод парадоксальный: иногда более агрессивное квантование (Q4_K_M) даёт большую итоговую скорость, потому что позволяет запихнуть всю модель в VRAM и избежать узкого горлышка PCIe. Для детального сравнения методов квантования загляни в специальный бенчмарк.
Совет из будущего: На 03.03.2026 для Intel Arc B580 лучший баланс — Qwen3.5-4B в квантовании Q4_K_M. Запускать через Vulkan с -ngl 99. Получишь около 85 токен/с и адекватные ответы. 9B — уже для энтузиастов, готовых к танцам с SYCL.
Что в итоге? Краткий чек-лист
Забудь про общие рекомендации. Вот твой план действий на сегодня, 03.03.2026:
- Цель — скорость: Качай Qwen3.5-2B в Q4_K_M. Собирай llama.cpp с Vulkan. Запускай с
-ngl 99. Забудь про SYCL. - Цель — качество: Качай Qwen3.5-4B в Q4_K_M. Пробуй SYCL. Если упал — переходи на Vulkan. Разницы в 10 токен/с ты не заметишь, а стабильность важнее.
- Цель — похвастаться: Качай Qwen3.5-9B в BF16. Собирай SYCL, молись, чтобы хватило памяти. Если не хватило — вспомни наш рассказ про кошмары Intel Arc и переходи на 4B.
- Цель — страдать: Пробуй 35B. Но сначала посмотри бенчмарки на 72 ГБ VRAM, чтобы понять, от чего отказываешься.
Intel Arc B580 — это не тупик. Это сложный путь, где нужно думать. Vulkan — твой надёжный друг. SYCL — гениальный, но сломанный брат. Выбирай друга. А брата зови в гости только по праздникам.
P.S. Через полгода Intel выпустит новые драйверы, и всё сломается. Но это уже история для следующей статьи.