Когда 26 миллиардов параметров помещаются в коробку размером с ладонь
Запустить 26-миллиардную модель на ноутбуке — это уже банальность. Как показал наш предыдущий эксперимент с M5 MacBook Air, современное потребительское железо справляется. Но что если нужно встроить полноценный AI в умную колонку, камеру или промышленный контроллер? Тут на сцену выходят нейропроцессоры вроде Rockchip NPU. И да, на них тоже можно запустить Gemma4 26B. Почти.
Сразу о главном: Rockchip NPU в 2026 году — это не замена дискретной видеокарте. Это специализированный ускоритель для низкопотребляющих сценариев. Ожидать 100 токенов в секунду бессмысленно. Но 5-7 токенов при потреблении 3-5 ватт — это революция для встраиваемых систем.
Кастомный форк llama.cpp: что там внутри?
Официальный llama.cpp на апрель 2026 года поддерживает кучу бэкендов: CUDA, Metal, Vulkan, даже AMD XDNA2. Но Rockchip NPU в этом списке нет. Потому что архитектура Rockchip — это особый мир проприетарных SDK и заморочек с драйверами.
Кастомный форк, который мы обозреваем, — это работа энтузиастов, вручную интегрировавших вызовы к библиотеке rknn-toolkit2 (актуальной версии 2.7.1 на 04.04.2026) внутрь вычислительного графа llama.cpp. Вместо универсальных матричных операций — вызовы специфических функций NPU. Это как заставить Ferrari ездить по узким сельским дорогам: двигатель мощный, но приходится переписывать правила движения.
Сравниваем с альтернативами: зачем вообще это нужно?
Почему бы не использовать CPU или GPU? Давайте посмотрим на цифры (актуальные тесты за март 2026):
| Платформа | Производительность (токен/с) | Потребление (Вт) | Примечание |
|---|---|---|---|
| Rockchip RK3588 NPU | ~5.2 | ~4 | С квантованием Q4_K_M |
| CPU Cortex-A76 (4 ядра) | ~1.8 | ~7 | На том же RK3588 |
| Raspberry Pi 5 (CPU) | ~2.1 | ~8 | Как в нашем сравнении NPU и Pi 5 |
| NVIDIA Jetson Orin Nano (GPU) | ~22 | ~15 | Дороже и прожорливее |
Разница очевидна. NPU даёт лучшую производительность на ватт в своём классе. Если вашему устройству нужно "думать" часами от батареи, а не секундами от сети — это ваш выбор.
Как это работает на практике: неочевидные настройки
Собрать форк — полдела. Настроить его для работы с Gemma4 26B — искусство. Вот ключевые моменты, которые не пишут в README.
1 Квантование — только определённые форматы
Rockchip NPU поддерживает не все форматы квантования llama.cpp. Из актуальных на 2026 год работают Q4_K_M, Q5_K_M и экспериментальный IQ4_XS (тот самый, что спас наш MacBook). Но есть нюанс: драйвер NPU оптимизирован под INT8 вычисления, поэтому формат Q8_0 работает быстрее, но жрёт больше памяти. А память на встраиваемых системах — дефицит.
2 Разделение нагрузки: NPU + CPU
Полностью загрузить 26B-модель на NPU RK3588 нельзя. Его оперативная память ограничена 1-2 ГБ. Поэтому форк использует гибридный режим: эмбеддинги и первые слои на NPU, а остальное — на CPU. Это напоминает подход из статьи про Strix Halo NPU, только с другим железом. Настройка баланса через флаги --npu-layers и --cpu-layers критически важна для скорости.
3 Драйверы и прошивки — ад кромешный
Самое слабое место. Драйвер rknn-toolkit2 обновляется раз в полгода, и каждый раз ломает обратную совместимость. Форк, собранный под версию 2.7.0, не запустится на системе с 2.7.1. Придётся пересобирать. И да, драйверы есть только для Linux. Забудьте про Windows или macOS.
Совет от бывалых: используйте Docker-образ от разработчиков форка. Он содержит зафиксированные версии всех библиотек и избавляет от 90% проблем с зависимостями. Актуальный образ на апрель 2026 — rockchip-llamacpp:2026.04.01.
Кому это действительно пригодится?
Это не инструмент для хайпа. Не для геймеров, не для стримеров. Его аудитория узка и специфична:
- Инженеры, разрабатывающие автономные устройства с AI (дроны, роботы, умные сенсоры).
- Энтузиасты edge computing, которые хотят поднять локальный чат-бот на одноплатнике, не платя за облака.
- Исследователи, изучающие оптимизацию больших моделей для ограниченных ресурсов. Для них это живая лаборатория.
Если вы просто хотите пообщаться с AI, используйте что-то попроще на домашнем сервере. Если же вы делаете устройство, которое должно работать месяц от PowerBank и при этом понимать голосовые команды — вы по адресу.
Что будет дальше? Прогноз на 2026-2027
Rockchip анонсировала новый NPU в архитектуре RK3588S (кодовое имя "Turing NPU 2.0") с поддержкой FP16 и втрое большей пропускной способностью. Если драйверы не будут такими же ужасными, это может сделать запуск моделей вроде Gemma4 26B на edge тривиальной задачей. А пока — приходится возиться с кастомными форками.
Мой совет: если вы начинаете проект сегодня, закладывайте гибридную архитектуру (NPU + CPU) с большим запасом по памяти. И следите за обновлениями llama.cpp — как только официальная ветка добавит поддержку Rockchip (а это вопрос времени), ваш кастомный форк мгновенно устареет.
В мире, где AI пытаются затолкать в карман, нейропроцессоры — не прихоть, а необходимость. Просто будьте готовы к тому, что путь к энергоэффективности вымощен сломанными драйверами.