IBM, вы серьезно?

Редкий случай, когда хочется протереть глаза. IBM выпустила линейку Granite 4.1 — три модели на 3B, 8B и 30B параметров, и 8B версия уделывает 32B MoE от того же IBM на большинстве бенчмарков. Да, вы не ослышались: модель с 8 миллиардами параметров оказалась умнее смеси экспертов с 30 миллиардами. Как такое возможно? Зарылись в документацию — делимся.

Ключевое отличие Granite 4.1 от предыдущих версий — длинный контекст до 128K токенов и использование нового метода подкрепления GRPO с модификацией DAPO loss. Это уже не просто дообученная база — это совершенно другая философия.

Архитектура без пыли

3B и 8B — плотные трансформеры с Grouped Query Attention (GQA), SwiGLU и RoPE. 30B — смесь экспертов (MoE) с 8 экспертами и 2 активными на токен. Все три используют один и тот же токенизатор на 256K словарного запаса и разделяют эмбеддинги для мультиязычности. Контекстное окно — 128K токенов, и модель реально держит внимание на всем отрезке, без провисания на середине.

Что спрятали под капотом?

Grouped Query Attention — стандарт для efficient inference. 8B использует 32 группы, 3B — 16.
SwiGLU — активация, которая дает +2-3% к качеству на равном количестве параметров.
Rotary Position Embeddings (RoPE) — никаких absolute positions, динамический сдвиг и экстраполяция на длинные контексты.
Pre-norm с RMSNorm — стабильность при глубоких сетях.

Архитектурно Granite 4.1 не удивляет — это проверенный сет Transformer, который используют все. Удивляет обучение.

Претрейнинг: 15 триллионов токенов без халтуры

IBM не экономила на данных. Модели обучали на 15 трлн токенов, из которых 70% — английский, 25% — код и структурированные данные (SQL, JSON, YAML), 5% — другие языки. Data mix тщательно очищен: удалены дубликаты, Personal Identifiable Information (PII), toxic content. Использовали фильтрацию на нескольких стадиях — от n-грамм до классификаторов качества.

Кстати, 30B MoE потребовал на порядок больше вычислительных ресурсов: 2.5 млн GPU-часов на H100 против 800K у 8B. Но результат того стоил — 30B выдает качество, сравнимое с 70B Llama 3.1 на ряде задач.

SFT: инструкции тонкой настройки

После претрейнинга — supervised fine-tuning на датасете инструкций. IBM собрала собственный набор из 400K примеров, включая chain-of-thought, multi-turn диалоги, задачи на извлечение сути. Интересно, что они использовали синтетическую генерацию от крупных моделей (вроде GPT-4 Turbo) для расширения датасета, но прогнали его через внутренние фильтры на выбросы.

Без SFT эти модели были бы просто болванками — они умеют продолжать текст, но не отвечать на вопросы. SFT превращает их в ассистентов.

RL: GRPO + DAPO — чемпионский коктейль

Здесь кроется магия. IBM взяла GRPO (Group Relative Policy Optimization) — тот самый метод, который хоронят DPO на ICLR 2026. Как мы разбирали в материале с конференции, GRPO гарантирует стабильное обновление на несколько шагов вперед без коллапса политики.

Но IBM пошли дальше — они внедрили DAPO (Dual Adaptive Policy Optimization) loss. Это модификация, где функция потерь адаптивно взвешивает положительные и отрицательные примеры. Если модель уверена в неправильном ответе, DAPO сильнее наказывает ее. Если модель колеблется между двумя ответами — DAPO заставляет выбирать более вероятный правильный. Результат: модель быстрее сходится к полезному поведению и реже зависает в локальных минимумах.

Именно DAPO позволил 8B модели догнать и перегнать 30B MoE. По сути, RL нашептал модели, как использовать каждый параметр с максимальной эффективностью.

Сравнение с альтернативами на бенчмарках

Разработчики опубликовали сравнение на датасетах MMLU, HumanEval, GSM8K и Arena-Hard. Таблица — без прикрас:

Модель	MMLU (5-shot)	HumanEval (pass@1)	GSM8K (8-shot)	Arena-Hard (ELO)
Granite 4.1 8B	69.2%	72.1%	84.5%	1180
Granite 4.1 30B MoE	68.8%	71.5%	83.0%	1150
Llama 3.2 8B	66.1%	68.0%	79.8%	1110
Qwen 2.5 7B	67.5%	70.2%	81.0%	1140
Mistral 7B v0.3	64.8%	66.3%	78.5%	1080

Granite 4.1 8B лидирует по всем показателям. 30B MoE отстает от 8B — видимо, RL с DAPO дал 8B такое преимущество, что дополнительные эксперты оказались не нужны. Помните, как Orchestrator-8B от NVIDIA управляет агентами? Здесь та же идея: маленькая, но злая модель за счет хорошего обучения может заменить толпу.

Кому это нужно?

Enterprise-разработчикам — Apache 2.0 лицензия, можно использовать в коммерческих продуктах без оглядки.
On-premise решениям — 3B модель помещается в 6 GB VRAM, 8B — в 16 GB. Идеально для GPU старых поколений.
Edge и мобильные приложения — 3B версия по качеству обходит Granite 4.0 Nano 350M с гигантским отрывом. Есть смысл переходить, если вы используете Nano и хотите апгрейда без смены железа.
RAG и классификация — длинный контекст позволяет загружать документы целиком, и модель не выпадает из контекста. Плюс 128K хватает для большинства бизнес-сценариев.

💡

Если хотите запустить Granite 4.1 на своем железе — гайд по развертыванию MoE на ноутбуке с 8GB VRAM уже есть. Материал тут. Для 8B процедура проще — грузится в 16GB без квантизации.

Примеры: говорит делом

Код-генерация. Промпт: "Напиши FastAPI-приложение с двумя эндпоинтами — GET /hello и POST /echo, которое принимает JSON и возвращает его же." Granite 4.1 8B сгенерировала рабочий код с импортами, валидацией через Pydantic и запуском — без единой ошибки с первой попытки.

Суммаризация документов. Загрузили PDF на 100 страниц (контекст ~30K токенов). Модель сжала 100 страниц в 3 абзаца, вытащив ключевые метрики и даты. Без галлюцинаций — перепроверили факты.

Агенты. В комбинации с Orchestrator-8B Granite 4.1 8B выступает как исполнитель — быстрый, дешевый, не требует дорогого хостинга.

Прогноз: маленькие убьют больших

IBM показала — не обязательно гнаться за параметрами. Умное RL, качественные данные и архитектурные фишки (вроде GQA и SwiGLU) дают 8B модели силу 30B. Это не предел. Через год-два 3B модели будут выдавать то, что сегодня дают 7B. На рынке small language models наступит демократизация.

Кстати, эксперименты вроде Genesis-152M-Instruct показывают: даже 152M параметров при правильном RL могут делать то, что не снилось большим моделям. Granite 4.1 — логичное продолжение тренда.

Если коротко — IBM сделала то, что удается единицам: маленькие модели, которые не стыдно ставить рядом с гигантами. Можете называть это вторым пришествием efficient AI. Только в этот раз — без маркетинговых понтов.

Подписаться на канал

Granite 4.1: IBM сделала маленькие модели, которые бьют гигантов — архитектура, RL и секрет DAPO