2025 год еще не закончился, а в кулуарах уже шепчутся о 2026-м. Не о политике или экономике — о моделях. Очень больших моделях. Точнее, о трех потенциальных MoE-гигантах, которые могут перевернуть представление о том, что можно запустить локально. IBM готовит Granite на ~100 миллиардов параметров. Arcee анонсировала Trinity — монстра на ~400 миллиардов. А Google молчит про Gemma 3, но все ждут именно его. Почему? Потому что он может стать тем самым убийцей GPT-OSS:120b, о котором мы писали в прошлом прогнозе.
Почему все вдруг заговорили о 2026 годе?
Цикл. Обычный цикл разработки большой языковой модели от концепции до релиза занимает 12-18 месяцев. Слухи о Gemma 3 начались сразу после выхода Gemini 3. IBM активизировала исследования после успеха Granite 4.0 Nano 350M (кстати, её тест можно почитать здесь). Arcee просто выложила дорожную карту. И все это упирается в железо. Анонс Rubin от Nvidia (да, того самого, который «убил» Blackwell за 90 дней) создал иллюзию, что к 2026 году запускать 400-миллиардные модели на двух видеокартах будет так же просто, как сегодня запускать 7-миллиардные. Спойлер: не будет.
Запомните простое правило: если компания анонсирует модель на 400B параметров «для локального использования», сразу спрашивайте, сколько именно видеопамяти ей нужно. Ответ «всего 80 ГБ» означает, что они используют квантование в 4-бита и MoE-архитектуру. Это не магия, а математика.
IBM Granite: старый слон учит новые трюки
IBM не первый год в игре, но с Granite они решили играть по-крупному. Ожидаемая модель на ~100B параметров — это не монолит, а MoE (Mixture of Experts). Представьте роту солдат, где каждый эксперт — специалист по своей задаче (код, математика, медицина), а маршрутизатор решает, к кому отправить ваш запрос. Для каждого ответа активируется только 2-4 эксперта из, скажем, 16. Общий размер модели огромен, но нагрузка на память и вычисления — в разы меньше.
Сильная сторона IBM — корпоративный фокус. Они не будут гнаться за генерацией стихов. Их цель — код, аналитика данных, научные расчеты. Проблема? Их инфраструктура. Watson AI уже давно стал мемом. Смогут ли они сделать удобный инструмент для разработчиков, а не еще один корпоративный «черный ящик»? Большой вопрос.
Arcee Trinity: амбиции в 400 миллиардов параметров
Если IBM — осторожный слон, то Arcee — гепард, который решил прыгнуть выше головы. Trinity на ~400B параметров — это заявка на абсолютное лидерство в opensource-сегменте. Для сравнения, сегодняшний чемпион локального хостинга — GPT-OSS:120b, и его уже с трудом запихивают на две RTX 3090.
| Модель | Ожидаемый размер (параметры) | Тип | Минимальные требования (оценка) | Основной фокус |
|---|---|---|---|---|
| IBM Granite | ~100B | MoE (Dense-MoE гибрид) | 2x RTX 4090 (48 ГБ) с квантованием | Код, корпоративные задачи, рассуждения |
| Arcee Trinity | ~400B | Чистый MoE | 4x RTX 5090 (или аналог, 96+ ГБ) | Универсальность, качество ответов, opensource |
| Gemma 3 (прогноз) | ~120B-200B? | MoE или плотная | Зависит от релиза (от 24 ГБ до 64 ГБ) | Мультимодальность, безопасность, мобильность |
Arcee делает ставку на чистый MoE с большим числом экспертов. Это рискованно. Сложность маршрутизации растет экспоненциально. Если маршрутизатор ошибется и активирует не тех экспертов, ответ будет бессмыслицей. Плюс, их нужно обучить на дико разнородных данных. Откуда их взять? Может, из того самого пиратского архива Spotify на 300 ТБ? Шутка. Но лишь отчасти.
Призрачный Gemma 3: почему его ждут больше всех?
Google не говорит ни слова. Но все ждут. Почему? Потому что у Google есть три козыря, которых нет у других:
- Архитектурный опыт. Они только что выпустили Gemini 3 с новой архитектурой, которая, как они утверждают, переплюнула Gemini 2.5 в reasoning. Детали этого прорыва мы разбирали отдельно. Этот опыт ляжет в основу Gemma 3.
- Фокус на эффективность. Линейка Gemma изначально заточена под ограниченные устройства. Gemma 3 270M уже доказала, что можно быть маленьким и умным. Значит, большая Gemma 3 тоже будет оптимизирована до предела.
- Мультимодальность из коробки. Google не станет выпускать просто текстовую модель. Это будет мультимодальный движок, возможно, с встроенными эмбеддингами, чтобы не нужно было ставить отдельные модели вроде тех, что мы сравнивали для замены OpenAI.
Главный вопрос к Google: будут ли они играть в opensource по-честному? Или Gemma 3 станет «условно-открытой» моделью, как некоторые предыдущие, с кучей ограничений на коммерческое использование?
Мой прогноз: Gemma 3 выйдет в нескольких размерах. Будет нано-версия (как сейчас 270M), средняя (8-12B) и флагманская (120-200B). Флагманская, скорее всего, будет использовать MoE-подход, чтобы оставаться хоть как-то доступной для локального хостинга. И да, она сразу станет главным конкурентом в войне кодирующих моделей.
Что это значит для вас в 2026 году?
Забудьте про запуск этих гигантов на своем ноутбуке. Даже с квантованием в 4 бита Arcee Trinity потребует минимум 80 ГБ видеопамяти только для весов. Это либо профессиональные карты, либо кластер из 4-5 игровых. Но прогресс не остановить.
1 Облако станет дешевле, но...
Запуск таких моделей в облаке (через Together, Replicate, Falcon) будет стоить копейки по сравнению с сегодняшним днем. Но вы отдадите все свои данные третьей стороне. Вечный компромисс.
2 Специализированное железо выйдет на первый план
Nvidia Rubin — только начало. Появятся карты и ускорители, заточенные именно под MoE-инференс. Или под квантование. Покупать сегодня флагманскую игровую карту для AI в 2026 — все равно что готовиться к марафону в кожаных сапогах.
3 Битва сместится в сторону данных и безопасности
Когда у всех будут гигантские MoE-модели, главным дифференциатором станет не архитектура, а данные, на которых учили. И безопасность. Тема AI Alignment уже сейчас вызывает споры (некоторые даже считают её фикцией и способом монетизации). К 2026 году она станет только острее, особенно после исследований о манипуляции.
Итог? 2026 год станет годом выбора. Не между моделями, а между парадигмами. Огромные универсальные MoE-монстры от Arcee и Google против более сфокусированных, но, возможно, более эффективных решений от IBM. И где-то на периферии будут бушевать войны между генеративными мирами, дешевыми фейками (привет, GPT Image 1.5) и умными бульдозерами (да, это уже реальность).
Мой совет на 2026: не гонитесь за самым большим числом параметров. Смотрите на эффективность, качество данных и лицензию. И готовьте бюджет на апгрейд железа. Или учитесь жить в облаке.