Когда 26 миллиардов параметров помещаются в коробку размером с ладонь

Запустить 26-миллиардную модель на ноутбуке — это уже банальность. Как показал наш предыдущий эксперимент с M5 MacBook Air, современное потребительское железо справляется. Но что если нужно встроить полноценный AI в умную колонку, камеру или промышленный контроллер? Тут на сцену выходят нейропроцессоры вроде Rockchip NPU. И да, на них тоже можно запустить Gemma4 26B. Почти.

Сразу о главном: Rockchip NPU в 2026 году — это не замена дискретной видеокарте. Это специализированный ускоритель для низкопотребляющих сценариев. Ожидать 100 токенов в секунду бессмысленно. Но 5-7 токенов при потреблении 3-5 ватт — это революция для встраиваемых систем.

Кастомный форк llama.cpp: что там внутри?

Официальный llama.cpp на апрель 2026 года поддерживает кучу бэкендов: CUDA, Metal, Vulkan, даже AMD XDNA2. Но Rockchip NPU в этом списке нет. Потому что архитектура Rockchip — это особый мир проприетарных SDK и заморочек с драйверами.

Кастомный форк, который мы обозреваем, — это работа энтузиастов, вручную интегрировавших вызовы к библиотеке rknn-toolkit2 (актуальной версии 2.7.1 на 04.04.2026) внутрь вычислительного графа llama.cpp. Вместо универсальных матричных операций — вызовы специфических функций NPU. Это как заставить Ferrari ездить по узким сельским дорогам: двигатель мощный, но приходится переписывать правила движения.

💡

Форк основан на llama.cpp версии b5320 (последний стабильный релиз на начало апреля 2026). Основные изменения — в файлах ggml-rk3588.c и ggml-rk3588.h. Там живёт вся магия взаимодействия с NPU через C-API от Rockchip.

Сравниваем с альтернативами: зачем вообще это нужно?

Почему бы не использовать CPU или GPU? Давайте посмотрим на цифры (актуальные тесты за март 2026):

Платформа	Производительность (токен/с)	Потребление (Вт)	Примечание
Rockchip RK3588 NPU	~5.2	~4	С квантованием Q4_K_M
CPU Cortex-A76 (4 ядра)	~1.8	~7	На том же RK3588
Raspberry Pi 5 (CPU)	~2.1	~8	Как в нашем сравнении NPU и Pi 5
NVIDIA Jetson Orin Nano (GPU)	~22	~15	Дороже и прожорливее

Разница очевидна. NPU даёт лучшую производительность на ватт в своём классе. Если вашему устройству нужно "думать" часами от батареи, а не секундами от сети — это ваш выбор.

Как это работает на практике: неочевидные настройки

Собрать форк — полдела. Настроить его для работы с Gemma4 26B — искусство. Вот ключевые моменты, которые не пишут в README.

1 Квантование — только определённые форматы

Rockchip NPU поддерживает не все форматы квантования llama.cpp. Из актуальных на 2026 год работают Q4_K_M, Q5_K_M и экспериментальный IQ4_XS (тот самый, что спас наш MacBook). Но есть нюанс: драйвер NPU оптимизирован под INT8 вычисления, поэтому формат Q8_0 работает быстрее, но жрёт больше памяти. А память на встраиваемых системах — дефицит.

2 Разделение нагрузки: NPU + CPU

Полностью загрузить 26B-модель на NPU RK3588 нельзя. Его оперативная память ограничена 1-2 ГБ. Поэтому форк использует гибридный режим: эмбеддинги и первые слои на NPU, а остальное — на CPU. Это напоминает подход из статьи про Strix Halo NPU, только с другим железом. Настройка баланса через флаги --npu-layers и --cpu-layers критически важна для скорости.

3 Драйверы и прошивки — ад кромешный

Самое слабое место. Драйвер rknn-toolkit2 обновляется раз в полгода, и каждый раз ломает обратную совместимость. Форк, собранный под версию 2.7.0, не запустится на системе с 2.7.1. Придётся пересобирать. И да, драйверы есть только для Linux. Забудьте про Windows или macOS.

Совет от бывалых: используйте Docker-образ от разработчиков форка. Он содержит зафиксированные версии всех библиотек и избавляет от 90% проблем с зависимостями. Актуальный образ на апрель 2026 — rockchip-llamacpp:2026.04.01.

Кому это действительно пригодится?

Это не инструмент для хайпа. Не для геймеров, не для стримеров. Его аудитория узка и специфична:

Инженеры, разрабатывающие автономные устройства с AI (дроны, роботы, умные сенсоры).
Энтузиасты edge computing, которые хотят поднять локальный чат-бот на одноплатнике, не платя за облака.
Исследователи, изучающие оптимизацию больших моделей для ограниченных ресурсов. Для них это живая лаборатория.

Если вы просто хотите пообщаться с AI, используйте что-то попроще на домашнем сервере. Если же вы делаете устройство, которое должно работать месяц от PowerBank и при этом понимать голосовые команды — вы по адресу.

Что будет дальше? Прогноз на 2026-2027

Rockchip анонсировала новый NPU в архитектуре RK3588S (кодовое имя "Turing NPU 2.0") с поддержкой FP16 и втрое большей пропускной способностью. Если драйверы не будут такими же ужасными, это может сделать запуск моделей вроде Gemma4 26B на edge тривиальной задачей. А пока — приходится возиться с кастомными форками.

Мой совет: если вы начинаете проект сегодня, закладывайте гибридную архитектуру (NPU + CPU) с большим запасом по памяти. И следите за обновлениями llama.cpp — как только официальная ветка добавит поддержку Rockchip (а это вопрос времени), ваш кастомный форк мгновенно устареет.

В мире, где AI пытаются затолкать в карман, нейропроцессоры — не прихоть, а необходимость. Просто будьте готовы к тому, что путь к энергоэффективности вымощен сломанными драйверами.

Подписаться на канал

Запуск Gemma4 26B на Rockchip NPU: обзор кастомного форка llama.cpp и настройка для энергоэффективности