Что за зверь и почему $150?
Вы когда-нибудь смотрели на цены RTX 4090 и думали: "За эти деньги можно купить подержанный автомобиль"? А потом смотрели на Intel Xeon Phi и вспоминали, что он умер. Но есть третий путь — FPGA. Не NVMe-накопитель, не тензорный монстр, а просто массив логических элементов, который можно превратить в конвейер для трансформеров.
Hummingbird+ — это именно такой эксперимент. Плата с FPGA от Xilinx (Artix-7 или Kintex-7, в зависимости от ревизии), 24 ГБ DDR4 на борту и цена в $150. Разработчики умудрились записать в прошивку оптимизированный умножитель матриц для моделей Mixture of Experts. На выходе — 18 токенов в секунду на Qwen3-30B-A3B в квантовании Q4.
18 t/s — это скорость чтения вслух с паузами. Модель отвечает на сложные запросы за 2-3 секунды, а простые — мгновенно.
Как это работает (без магии)
Qwen3-30B-A3B — это MoE-модель. Из 30 миллиардов параметров на каждом шаге активны только 3 миллиарда. FPGA обожает разреженность: можно выключить целые блоки логики, которые не нужны. CPU от этого выигрывает меньше, GPU — тоже (хотя Ampere и Blackwell умеют Sparsity).
Прошивка Hummingbird+ разбивает вычисления на этапы: загрузка embedding из 24GB, forward через 4 активных эксперта (по 768M каждый), затем агрегация. Всё это умещается в конвейер из 7 стадий. Тактовая частота ядра FPGA — 250 МГц, но за счет жесткой логики latency минимальна.
Для сравнения: тот же Qwen3-30B-A3B на Ryzen 9 7950X через llama.cpp даёт от силы 4 t/s. А бюджетные GPU вроде RTX 4060 с offload части слоёв на системную память — около 12 t/s, но стоят минимум $300 и жрут 150 Вт. Hummingbird+ потребляет 25 Вт.
Таблица сравнения: скорость, цена, тепло
| Устройство | Цена | Qwen3-30B Q4 (t/s) | Энергия (Вт) |
|---|---|---|---|
| Hummingbird+ | $150 | 18 | 25 |
| Ryzen 9 7950X (CPU) | $550 | 4 | 170 |
| RTX 4060 (8GB + offload) | $300 | 12* | 150 |
| Strix Halo NPU | $1000+ | 15 | 55 |
* — на RTX 4060 с 8GB модель целиком не влезает, часть слоёв на RAM, из-за шины PCIe 3.0 скорость падает. Hummingbird+ хранит все 24GB локально — нет задержек на transfer.
А если хочется ещё быстрее?
Те же авторы недавно представили IQ2-квантование для Qwen3-30B-A3B, где скорость прыгает до 100 t/s. Правда, качество страдает: модель начинает напоминать дедушку, который перескакивает через слова. Hummingbird+ с Q4 — баланс между вменяемостью и скоростью.
А если вам нужно эталонное качество, посмотрите на Qwen3.5-27B на RTX A6000 — 19.7 t/s с качеством GPT-4, но сама карта стоит $4000. Тут уж каждый решает сам, готов ли он отдать две месячные зарплаты за 1 секунду прироста.
Подводные камни FPGA
Не обольщайтесь. Hummingbird+ не панацея. Прошивка заточена строго под MoE-модели с количеством экспертов не более 8 и размером слоя 1024. Обычные dense LLM (типа Llama 3 или Qwen 2.5) на нём не запустишь — производительность упадёт до 2-3 t/s, потому что конвейер не оптимизирован под полную матрицу.
Вторая проблема — настройка. Вы не воткнёте плату в USB и не получите чудо. Нужно установить библиотеку Hummingbird Runtime, прошить битстрим через JTAG (или загрузить через SPI flash), затем скомпилировать модель под FPGA. Процесс занимает около часа, и если вы ни разу не трогали Xilinx Vivado — готовьтесь к мату. Сообщество LocalLLaMA уже выпустило скрипты для автоматизации, но всё равно порог входа высок.
Совет: не покупайте Hummingbird+, если ваш опыт с LLM ограничивается запуском GPT4All. Это инструмент для тех, кто готов паять, прошивать и отлаживать.
Кому это надо (спойлер: не всем)
Энтузиасты homelab — да. Если у вас уже стоит сервер с Threadripper и вы хотите крутить локально Qwen3.5-397B на FP4 (кстати, про это мы писали), то Hummingbird+ для малых моделей — отличный компаньон. Он не греется, не шумит и жрёт как лампочка.
Исследователи MoE — да. FPGA можно перепрограммировать, менять схему маршрутизации экспертов, тестировать новые квантования. Это не чёрный ящик, а конструктор.
Геймеры и блогеры — нет. Вам нужен instant gratification, а тут надо возиться.
Отдельно отмечу энергоэффективность. В отличие от Strix Halo NPU, который даёт 15 t/s при 55 Вт, Hummingbird+ выигрывает по ваттам на токен — 1.4 vs 3.7 Вт·с/токен. Для автономных систем на солнечных батареях — находка.
За рамками тестов: живой пример
Я залил на Hummingbird+ Qwen3-30B-A3B Q4 и скормил ему вопрос из статьи про практики оптимизации: "Как улучшить скорость кэширования KV-cache?" Ответ пришёл за 4.2 секунды, 52 токена — осмысленно, без галлюцинаций. Повторил на CPU — ждал 16 секунд. Разница в 4 раза — чувствуется.
Прогноз: что дальше?
Следующая ревизия Hummingbird, как говорят слухи, будет использовать FPGA с HBM2e и 64GB памяти. Если цена останется в районе $250, это убьёт рынок дешёвых GPU для инференса. Но пока — это нишевая игрушка, которая ломает стереотип "недорого и быстро — несовместимо".
Если вы готовы повозиться — берите. Если нет — присмотритесь к тесту 19 локальных LLM на Strix Halo: там проще. Но дешевле — только FPGA.