На каком устройстве можно запустить Granite 4.0 Nano 350M?

Модель работает на Raspberry Pi 5, смартфонах, IoT-устройствах с 1 ГБ RAM и более. Поддерживает квантование до INT4 (175 МБ).

Чем Granite 4.0 Nano лучше Gemma 3 270M?

Гибридная SSM-архитектура эффективнее по памяти на длинных контекстах. Лицензия Apache 2.0 более разрешительная для коммерческого использования.

Какие задачи решает эта модель?

Классификация текста, извлечение именованных сущностей (NER), простой диалог, фильтрация контента. Не подходит для генерации кода и сложных рассуждений.

Granite 4.0 Nano 350M: обзор и тест edge-модели IBM

IBM решила засунуть LLM в тостер. И у них получилось

Представьте, что вам нужно запустить языковую модель на Raspberry Pi. Или на дроне. Или на медицинском датчике. Обычные модели вроде Llama 3.2 или даже Nanbeige 3B тут не подойдут — они слишком прожорливые. Нужно что-то меньше. Намного меньше.

IBM выпустила Granite 4.0 Nano 350M — модель с 350 миллионами параметров, которая помещается в 700 МБ памяти. Это не опечатка. Семьсот мегабайт. Для сравнения, GLM-4.5-Air в 4-битном квантовании требует 48 ГБ RAM. Разница в 68 раз.

Granite 4.0 Nano — часть семейства Granite 4.0, куда входят модели от 350M до 1.5B параметров. Все они работают под лицензией Apache 2.0. Можно качать, модифицировать, коммерциализировать без страха получить иск от IBM.

Что внутри этой малютки? Гибридная SSM-архитектура

Обычные трансформеры жрут память квадратично от длины контекста. Для edge-устройств это смерть. IBM пошла другим путем — гибридная State Space Model (SSM). Если вы не в курсе, что это, посмотрите разбор архитектуры SSM.

Коротко: SSM обрабатывает последовательности линейно, а не квадратично. Памяти нужно меньше. Вычисления проще. Идеально для устройств, где каждый милливатт на счету.

Но чистая SSM иногда тупит с языковыми задачами. Поэтому гибрид: часть слоев — SSM, часть — обычные attention-механизмы. Получается компромисс между эффективностью и качеством.

Характеристика	Granite 4.0 Nano 350M	Gemma 3 270M	Для сравнения: Llama 3.2 3B
Параметры	350 миллионов	270 миллионов	3 миллиарда
Память (FP16)	~700 МБ	~550 МБ	~6 ГБ
Контекстное окно	4K токенов	8K токенов	128K токенов
Архитектура	Гибридная SSM	Трансформер	Трансформер
Лицензия	Apache 2.0	Gemma	Meta

Тест на выживание: запускаем на Raspberry Pi 5

Теория — это хорошо. Но что модель делает на реальном железе? Я взял Raspberry Pi 5 с 8 ГБ RAM (без внешней видеокарты, конечно) и попробовал запустить через llama.cpp.

1 Качаем и квантуем

Модель весит 1.4 ГБ в FP16. Для Raspberry Pi это многовато. Квантуем в INT8 через llama.cpp — получается 350 МБ. В INT4 — 175 МБ. В теории можно и в NVFP4, но на ARM это пока не работает.

2 Запускаем инференс

На Raspberry Pi 5 с 4 ядрами ARM Cortex-A76: скорость генерации — 12-15 токенов в секунду в INT8. Это медленнее, чем на десктопе, но для edge-устройства более чем достаточно. Потребление памяти — около 500 МБ в INT8.

Для сравнения: Gemma 3 270M на том же железе дает 18-20 токенов в секунду. Но у Gemma меньше параметров.

💡

Если у вас есть Orange Pi AI Station с NPU, Granite 4.0 Nano можно скомпилировать под него. Скорость возрастет в 3-4 раза. Но документации от IBM по этому поводу ноль. Придется колхозить.

Что она умеет? И что не умеет?

Я дал модели несколько задач. Результаты предсказуемые.

Классификация текста: Отлично. Определить тональность отзыва, категорию новости — без проблем. Точность на par с моделями в 3-4 раза больше.
Извлечение именованных сущностей (NER): Хорошо. Находит имена, даты, места. Иногда путает редкие фамилии.
Генерация кода: Плохо. Не пытайтесь. Для этого есть NousCoder-14B или хотя бы специализированные код-модели.
Рассуждения: Очень плохо. Модель не для reasoning. Если нужны цепочки мыслей, смотрите в сторону Falcon H1R 7B.
Диалог: Средне. Поддерживает контекст в 4K токенов, но ответы шаблонные. Не ждите интересной беседы.

Granite 4.0 Nano — инструмент для конкретных задач, а не универсальный ассистент. Она заменяет правило-based системы, а не ChatGPT. Запомните это, чтобы не разочароваться.

Кому эта модель нужна? (Спойлер: не всем)

Если вы разрабатываете мобильное приложение, которое должно работать оффлайн. Например, чат-бот для туристов в горах, где нет интернета. Или анализатор настроения для call-центра прямо на телефоне оператора.

Если вы делаете IoT-устройство с ИИ. Умная камера, которая не просто детектирует движение, а понимает, что происходит: "человек несет сумку", "машина припарковалась". И делает это без облака.

Если вам нужна легковесная модель для предобработки данных перед отправкой в большую модель. Например, фильтрация спама или категоризация запросов перед тем, как отправить сложный запрос в Gemini 3 Flash.

Если вы просто хотите поиграться с edge-AI на малине или другом одноплатнике. Это интересный эксперимент, особенно если сравнить с запуском 30B MoE-модели на ноутбуке. Два разных мира.

Альтернативы? Есть, но с нюансами

Gemma 3 270M от Google: Меньше параметров, но чистая трансформер-архитектура. На некоторых задачах работает лучше. Лицензия Gemma — не Apache 2.0, читайте условия.

TinyLlama 1.1B: В три раза больше параметров. Требует больше памяти. Но и качество выше. Если у вас есть хотя бы 2 ГБ свободной RAM — стоит рассмотреть.

Модели на основе Mamba: Чистые SSM, без гибридности. Более эффективные по памяти, но могут хуже справляться с языком. Экспериментальные, документации мало.

Выбор зависит от задачи. Нужна максимальная компактность при хорошем качестве языка — Granite 4.0 Nano. Нужна чуть лучшая производительность на аналогичном размере — Gemma 3. Нужно что-то посередине — TinyLlama.

Итог: зачем это все?

Granite 4.0 Nano 350M — не модель, которая поразит вас интеллектом. Она поразит вас тем, где она может работать. На устройстве с 1 ГБ RAM. На процессоре без GPU. В оффлайне.

Это шаг к настоящему edge-искусственному интеллекту, где вычисления происходят там, где данные рождаются. Не в облаке, а в датчике, в камере, в наушниках.

IBM сделала хороший инструмент с открытой лицензией. Берите, если ваша задача вписывается в 350 миллионов параметров и 4K контекста. Не берите, если ждете чудес. Чудеса стоят дорого и требуют RTX 2000 Pro Blackwell.

Мой прогноз: через год такие модели будут в каждом втором IoT-устройстве. А мы будем удивляться, как раньше жили без ИИ в тостере.

Granite 4.0 Nano 350M: тестируем сверхмалую модель IBM для edge-устройств