IBM, вы серьезно?
Редкий случай, когда хочется протереть глаза. IBM выпустила линейку Granite 4.1 — три модели на 3B, 8B и 30B параметров, и 8B версия уделывает 32B MoE от того же IBM на большинстве бенчмарков. Да, вы не ослышались: модель с 8 миллиардами параметров оказалась умнее смеси экспертов с 30 миллиардами. Как такое возможно? Зарылись в документацию — делимся.
Ключевое отличие Granite 4.1 от предыдущих версий — длинный контекст до 128K токенов и использование нового метода подкрепления GRPO с модификацией DAPO loss. Это уже не просто дообученная база — это совершенно другая философия.
Архитектура без пыли
3B и 8B — плотные трансформеры с Grouped Query Attention (GQA), SwiGLU и RoPE. 30B — смесь экспертов (MoE) с 8 экспертами и 2 активными на токен. Все три используют один и тот же токенизатор на 256K словарного запаса и разделяют эмбеддинги для мультиязычности. Контекстное окно — 128K токенов, и модель реально держит внимание на всем отрезке, без провисания на середине.
Что спрятали под капотом?
- Grouped Query Attention — стандарт для efficient inference. 8B использует 32 группы, 3B — 16.
- SwiGLU — активация, которая дает +2-3% к качеству на равном количестве параметров.
- Rotary Position Embeddings (RoPE) — никаких absolute positions, динамический сдвиг и экстраполяция на длинные контексты.
- Pre-norm с RMSNorm — стабильность при глубоких сетях.
Архитектурно Granite 4.1 не удивляет — это проверенный сет Transformer, который используют все. Удивляет обучение.
Претрейнинг: 15 триллионов токенов без халтуры
IBM не экономила на данных. Модели обучали на 15 трлн токенов, из которых 70% — английский, 25% — код и структурированные данные (SQL, JSON, YAML), 5% — другие языки. Data mix тщательно очищен: удалены дубликаты, Personal Identifiable Information (PII), toxic content. Использовали фильтрацию на нескольких стадиях — от n-грамм до классификаторов качества.
Кстати, 30B MoE потребовал на порядок больше вычислительных ресурсов: 2.5 млн GPU-часов на H100 против 800K у 8B. Но результат того стоил — 30B выдает качество, сравнимое с 70B Llama 3.1 на ряде задач.
SFT: инструкции тонкой настройки
После претрейнинга — supervised fine-tuning на датасете инструкций. IBM собрала собственный набор из 400K примеров, включая chain-of-thought, multi-turn диалоги, задачи на извлечение сути. Интересно, что они использовали синтетическую генерацию от крупных моделей (вроде GPT-4 Turbo) для расширения датасета, но прогнали его через внутренние фильтры на выбросы.
Без SFT эти модели были бы просто болванками — они умеют продолжать текст, но не отвечать на вопросы. SFT превращает их в ассистентов.
RL: GRPO + DAPO — чемпионский коктейль
Здесь кроется магия. IBM взяла GRPO (Group Relative Policy Optimization) — тот самый метод, который хоронят DPO на ICLR 2026. Как мы разбирали в материале с конференции, GRPO гарантирует стабильное обновление на несколько шагов вперед без коллапса политики.
Но IBM пошли дальше — они внедрили DAPO (Dual Adaptive Policy Optimization) loss. Это модификация, где функция потерь адаптивно взвешивает положительные и отрицательные примеры. Если модель уверена в неправильном ответе, DAPO сильнее наказывает ее. Если модель колеблется между двумя ответами — DAPO заставляет выбирать более вероятный правильный. Результат: модель быстрее сходится к полезному поведению и реже зависает в локальных минимумах.
Именно DAPO позволил 8B модели догнать и перегнать 30B MoE. По сути, RL нашептал модели, как использовать каждый параметр с максимальной эффективностью.
Сравнение с альтернативами на бенчмарках
Разработчики опубликовали сравнение на датасетах MMLU, HumanEval, GSM8K и Arena-Hard. Таблица — без прикрас:
| Модель | MMLU (5-shot) | HumanEval (pass@1) | GSM8K (8-shot) | Arena-Hard (ELO) |
|---|---|---|---|---|
| Granite 4.1 8B | 69.2% | 72.1% | 84.5% | 1180 |
| Granite 4.1 30B MoE | 68.8% | 71.5% | 83.0% | 1150 |
| Llama 3.2 8B | 66.1% | 68.0% | 79.8% | 1110 |
| Qwen 2.5 7B | 67.5% | 70.2% | 81.0% | 1140 |
| Mistral 7B v0.3 | 64.8% | 66.3% | 78.5% | 1080 |
Granite 4.1 8B лидирует по всем показателям. 30B MoE отстает от 8B — видимо, RL с DAPO дал 8B такое преимущество, что дополнительные эксперты оказались не нужны. Помните, как Orchestrator-8B от NVIDIA управляет агентами? Здесь та же идея: маленькая, но злая модель за счет хорошего обучения может заменить толпу.
Кому это нужно?
- Enterprise-разработчикам — Apache 2.0 лицензия, можно использовать в коммерческих продуктах без оглядки.
- On-premise решениям — 3B модель помещается в 6 GB VRAM, 8B — в 16 GB. Идеально для GPU старых поколений.
- Edge и мобильные приложения — 3B версия по качеству обходит Granite 4.0 Nano 350M с гигантским отрывом. Есть смысл переходить, если вы используете Nano и хотите апгрейда без смены железа.
- RAG и классификация — длинный контекст позволяет загружать документы целиком, и модель не выпадает из контекста. Плюс 128K хватает для большинства бизнес-сценариев.
Примеры: говорит делом
Код-генерация. Промпт: "Напиши FastAPI-приложение с двумя эндпоинтами — GET /hello и POST /echo, которое принимает JSON и возвращает его же." Granite 4.1 8B сгенерировала рабочий код с импортами, валидацией через Pydantic и запуском — без единой ошибки с первой попытки.
Суммаризация документов. Загрузили PDF на 100 страниц (контекст ~30K токенов). Модель сжала 100 страниц в 3 абзаца, вытащив ключевые метрики и даты. Без галлюцинаций — перепроверили факты.
Агенты. В комбинации с Orchestrator-8B Granite 4.1 8B выступает как исполнитель — быстрый, дешевый, не требует дорогого хостинга.
Прогноз: маленькие убьют больших
IBM показала — не обязательно гнаться за параметрами. Умное RL, качественные данные и архитектурные фишки (вроде GQA и SwiGLU) дают 8B модели силу 30B. Это не предел. Через год-два 3B модели будут выдавать то, что сегодня дают 7B. На рынке small language models наступит демократизация.
Кстати, эксперименты вроде Genesis-152M-Instruct показывают: даже 152M параметров при правильном RL могут делать то, что не снилось большим моделям. Granite 4.1 — логичное продолжение тренда.
Если коротко — IBM сделала то, что удается единицам: маленькие модели, которые не стыдно ставить рядом с гигантами. Можете называть это вторым пришествием efficient AI. Только в этот раз — без маркетинговых понтов.