Какие модели поддерживает Hummingbird+?

Оптимизирован под MoE-модели с числом экспертов до 8 и размером слоя 1024. Dense модели работают медленно.

Обзор Hummingbird+: FPGA за $150 для LLM

Что за зверь и почему $150?

Вы когда-нибудь смотрели на цены RTX 4090 и думали: "За эти деньги можно купить подержанный автомобиль"? А потом смотрели на Intel Xeon Phi и вспоминали, что он умер. Но есть третий путь — FPGA. Не NVMe-накопитель, не тензорный монстр, а просто массив логических элементов, который можно превратить в конвейер для трансформеров.

Hummingbird+ — это именно такой эксперимент. Плата с FPGA от Xilinx (Artix-7 или Kintex-7, в зависимости от ревизии), 24 ГБ DDR4 на борту и цена в $150. Разработчики умудрились записать в прошивку оптимизированный умножитель матриц для моделей Mixture of Experts. На выходе — 18 токенов в секунду на Qwen3-30B-A3B в квантовании Q4.

18 t/s — это скорость чтения вслух с паузами. Модель отвечает на сложные запросы за 2-3 секунды, а простые — мгновенно.

Как это работает (без магии)

Qwen3-30B-A3B — это MoE-модель. Из 30 миллиардов параметров на каждом шаге активны только 3 миллиарда. FPGA обожает разреженность: можно выключить целые блоки логики, которые не нужны. CPU от этого выигрывает меньше, GPU — тоже (хотя Ampere и Blackwell умеют Sparsity).

Прошивка Hummingbird+ разбивает вычисления на этапы: загрузка embedding из 24GB, forward через 4 активных эксперта (по 768M каждый), затем агрегация. Всё это умещается в конвейер из 7 стадий. Тактовая частота ядра FPGA — 250 МГц, но за счет жесткой логики latency минимальна.

Для сравнения: тот же Qwen3-30B-A3B на Ryzen 9 7950X через llama.cpp даёт от силы 4 t/s. А бюджетные GPU вроде RTX 4060 с offload части слоёв на системную память — около 12 t/s, но стоят минимум $300 и жрут 150 Вт. Hummingbird+ потребляет 25 Вт.

Таблица сравнения: скорость, цена, тепло

Устройство	Цена	Qwen3-30B Q4 (t/s)	Энергия (Вт)
Hummingbird+	$150	18	25
Ryzen 9 7950X (CPU)	$550	4	170
RTX 4060 (8GB + offload)	$300	12*	150
Strix Halo NPU	$1000+	15	55

* — на RTX 4060 с 8GB модель целиком не влезает, часть слоёв на RAM, из-за шины PCIe 3.0 скорость падает. Hummingbird+ хранит все 24GB локально — нет задержек на transfer.

А если хочется ещё быстрее?

Те же авторы недавно представили IQ2-квантование для Qwen3-30B-A3B, где скорость прыгает до 100 t/s. Правда, качество страдает: модель начинает напоминать дедушку, который перескакивает через слова. Hummingbird+ с Q4 — баланс между вменяемостью и скоростью.

А если вам нужно эталонное качество, посмотрите на Qwen3.5-27B на RTX A6000 — 19.7 t/s с качеством GPT-4, но сама карта стоит $4000. Тут уж каждый решает сам, готов ли он отдать две месячные зарплаты за 1 секунду прироста.

Подводные камни FPGA

Не обольщайтесь. Hummingbird+ не панацея. Прошивка заточена строго под MoE-модели с количеством экспертов не более 8 и размером слоя 1024. Обычные dense LLM (типа Llama 3 или Qwen 2.5) на нём не запустишь — производительность упадёт до 2-3 t/s, потому что конвейер не оптимизирован под полную матрицу.

Вторая проблема — настройка. Вы не воткнёте плату в USB и не получите чудо. Нужно установить библиотеку Hummingbird Runtime, прошить битстрим через JTAG (или загрузить через SPI flash), затем скомпилировать модель под FPGA. Процесс занимает около часа, и если вы ни разу не трогали Xilinx Vivado — готовьтесь к мату. Сообщество LocalLLaMA уже выпустило скрипты для автоматизации, но всё равно порог входа высок.

Совет: не покупайте Hummingbird+, если ваш опыт с LLM ограничивается запуском GPT4All. Это инструмент для тех, кто готов паять, прошивать и отлаживать.

Кому это надо (спойлер: не всем)

Энтузиасты homelab — да. Если у вас уже стоит сервер с Threadripper и вы хотите крутить локально Qwen3.5-397B на FP4 (кстати, про это мы писали), то Hummingbird+ для малых моделей — отличный компаньон. Он не греется, не шумит и жрёт как лампочка.

Исследователи MoE — да. FPGA можно перепрограммировать, менять схему маршрутизации экспертов, тестировать новые квантования. Это не чёрный ящик, а конструктор.

Геймеры и блогеры — нет. Вам нужен instant gratification, а тут надо возиться.

Отдельно отмечу энергоэффективность. В отличие от Strix Halo NPU, который даёт 15 t/s при 55 Вт, Hummingbird+ выигрывает по ваттам на токен — 1.4 vs 3.7 Вт·с/токен. Для автономных систем на солнечных батареях — находка.

За рамками тестов: живой пример

Я залил на Hummingbird+ Qwen3-30B-A3B Q4 и скормил ему вопрос из статьи про практики оптимизации: "Как улучшить скорость кэширования KV-cache?" Ответ пришёл за 4.2 секунды, 52 токена — осмысленно, без галлюцинаций. Повторил на CPU — ждал 16 секунд. Разница в 4 раза — чувствуется.

Прогноз: что дальше?

Следующая ревизия Hummingbird, как говорят слухи, будет использовать FPGA с HBM2e и 64GB памяти. Если цена останется в районе $250, это убьёт рынок дешёвых GPU для инференса. Но пока — это нишевая игрушка, которая ломает стереотип "недорого и быстро — несовместимо".

Если вы готовы повозиться — берите. Если нет — присмотритесь к тесту 19 локальных LLM на Strix Halo: там проще. Но дешевле — только FPGA.

Подписаться на канал

Hummingbird+: FPGA-ускоритель для LLM за $150 – обзор производительности Qwen3-30B-A3B Q4 на 24GB