Почему каждый китайский ИИ-стартап теперь говорит о MoE

Представьте, что вы строите небоскреб. Классический подход – залить монолитный фундамент и возводить этаж за этажом. Дорого, долго, и если ошибка – переделывать всё. Китайские разработчики ИИ в 2025 году поняли: у них нет денег на такой фундамент. Санкции, дефицит GPU, цены на черном рынке зашкаливают. Нужен другой способ.

И они его нашли. Вместо одного небоскреба – городок из модульных домов. Каждый дом – эксперт в своем деле: один готовит суши, другой чинит обувь, третий пишет код на Python. Когда клиент приходит с запросом, работают только те эксперты, которые нужны. Остальные спят. Это и есть Mixture of Experts (MoE).

На 08.03.2026 архитектура MoE стала де-факто стандартом для китайских open-source моделей. Последние версии DeepSeek R1, Kimi K2.5, Qwen3-MoE и MiniMax M2.1 построены именно на этом принципе.

Как MoE вырубает стоимость обучения в 10 раз

Цифры, от которых плачут инвесторы: обучение плотной модели на 300 млрд параметров в 2024 году стоило около 50 млн долларов. В 2025 – дороже. Китайские компании, особенно после ужесточения экспортных ограничений на GPU, просто не могли позволить себе такие чеки.

MoE меняет математику. Вы создаете пул из 128 экспертов по 10 млрд параметров каждый. Итого – 1.28 трлн параметров. Но для обработки одного токена активируете только 2-4 эксперта. Фактически, вы работаете с 20-40 млрд параметров, а платите за триллионный интеллект.

Модель (2025-2026)	Архитектура	Всего параметров	Активируется за шаг	Ключевая фишка
DeepSeek R1	MoE (256 экспертов)	1.2 трлн	37 млрд	SOTA в reasoning, оптимизирована под H800
Kimi K2.5	MoE (384 эксперта)	1.1 трлн	12 экспертов	Лучшая оптимизация под 4x H100, контекст 1M токенов
Qwen3-MoE	MoE 1.4 трлн	1.4 трлн	24 эксперта	Лучшая цена/качество, сильная multilingual поддержка
MiniMax M2.1	MoE (192 эксперта)	900 млрд	16 экспертов	SOTA в кодинге и агентах, низкая задержка

Разборка MoE: как внутри устроен "комитет экспертов"

Представьте трансформер. В нем есть feed-forward сети (FFN). В плотной модели – одна большая FFN на весь мир. В MoE – множество маленьких FFN, каждый из которых становится экспертом. Добавляется маршрутизатор (router) – маленькая нейросеть, которая решает, какому эксперту отправить токен.

Работает это так:

Токен приходит в маршрутизатор.
Маршрутизатор смотрит на его embedding и выбирает топ-2 или топ-4 эксперта.
Токен отправляется только к этим экспертам, их FFN обрабатывают его.
Результаты взвешиваются и возвращаются в основную сеть.

Весь фокус в том, что эксперты специализируются. Один научился на юридических текстах, другой – на кодеке Python, третий – на медицинских статьях. Маршрутизатор, как умный диспетчер, отправляет запросы к нужным специалистам.

💡

В DeepSeek R1 маршрутизатор обучался отдельно, что позволило достичь высокой точности в выборе экспертов. Это одна из причин, почему модель показывает SOTA-результаты в reasoning-задачах.

Почему именно китайские модели? Железный аргумент

Западные компании имели доступ к тысячам H100. Китай – нет. Основные GPU в Китае на 2026 год: Huawei Ascend 910B, H800 (китайская версия H100), и различные отечественные разработки. Производительность этих чипов часто ниже, а память ограничена.

MoE идеально ложится на такие ограничения. Вы можете обучать экспертов по отдельности на разных кластерах, даже на разных типах GPU. Потом собрать модель как конструктор. Это снижает требования к памяти при обучении и ускоряет итерации.

Например, в нашей предыдущей статье мы подробно разбирали, как китайские компании адаптируют MoE под свое железо.

DeepSeek R1: как они сделали MoE, который всех обогнал

Выпуск DeepSeek R1 в ноябре 2025 стал моментом "как они это сделали?". Модель с 1.2 трлн параметров обошла GPT-4.5 в большинстве бенчмарков. Но главное – ее можно запустить на 8 картах H800 вместо 64 карт для аналогичной монолитной модели.

Секрет в трех вещах:

Динамический маршрутизатор: обучен отдельно на разнообразных данных, умеет точно выбирать экспертов.
Сбалансированная нагрузка: алгоритм следит, чтобы эксперты не перегружались и не простаивали.
Оптимизация под H800: использование особенностей китайских GPU, таких как память и bandwidth.

Если вы хотите глубже понять архитектуру MoE в трансформерах, посмотрите наше полное руководство по MoE в Hugging Face.

Kimi K2.5: MoE для длинного контекста

Kimi известна своими длинными контекстами. В K2.5 они применили MoE с 384 экспертами, но активируют только 12 на токен. Это позволило уместить модель с 1.1 трлн параметров в 4 карты H100 и держать контекст в 1 миллион токенов.

Здесь эксперты специализируются на разных частях контекста: одни работают с началом текста, другие – с серединой, третьи – с концом. Это как иметь специалистов по введению, основной части и заключению.

Внимание: при деплое Kimi K2.5 на локальное железо могут возникнуть проблемы с памятью из-за большого числа экспертов. Мы разбирали эти нюансы здесь.

Qwen3-MoE и MiniMax M2.1: два подхода к экономии

Alibaba с Qwen3-MoE сделала ставку на массовость: 1.4 трлн параметров, но активация 24 экспертов. Модель показывает отличное качество при относительно низких требованиях к железу. Идеально для облачного деплоя.

MiniMax в M2.1 пошла другим путем: меньше общих параметров (900 млрд), но эксперты специализированы под конкретные задачи – кодинг, агенты, математика. Это делает модель эффективной в нишевых сценариях.

Обе модели доступны в open-source, и вы можете поэкспериментировать с ними. Подробнее о MiniMax M2.1 читайте в нашем разборе.

Как НЕ надо деплоить MoE-модели: 3 ошибки, которые сожгут ваш GPU

MoE не панацея. Если неправильно настроить, модель будет тормозить или есть всю память.

Игнорирование балансировки нагрузки: если маршрутизатор постоянно выбирает одних и тех же экспертов, они перегружаются, а остальные простаивают. Решение: использовать loss для балансировки, как в DeepSeek R1.
Неправильный выбор числа активируемых экспертов (k): слишком маленький k – модель глупеет. Слишком большой – растут вычисления. Для большинства задач на 2026 год оптимально k=2-4.
Попытка запустить на GPU с недостаточной памятью: даже если активируется мало экспертов, все их веса должны быть загружены в память. Для модели на 1 трлн параметров нужно минимум 80-100 ГБ VRAM. Сборка ПК для MoE-моделей требует планирования.

💡

Для локального запуска MoE-моделей используйте оптимизированные инференс-движки, такие как llama.cpp или vLLM с поддержкой MoE. Они умеют эффективно управлять памятью и загружать только необходимые части экспертов.

Что дальше? MoE 2.0 и специализированные эксперты

Тренд на 2026 год: эксперты становятся еще более специализированными. Вместо общего эксперта по коду – отдельный эксперт для Python, другой для JavaScript, третий для Rust. Это повышает качество, но усложняет маршрутизацию.

Еще одно направление – динамическое число активируемых экспертов. Сложный запрос – больше экспертов, простой – меньше. Это пока в исследовательской стадии, но первые наработки уже есть в Kimi K2.5.

MoE – не просто архитектура. Это стратегический ответ на геополитические и экономические вызовы. И пока ограничения на GPU существуют, китайские компании будут развивать именно этот подход.

Если вы думаете, что MoE – это временно, посмотрите на дорожные карты Alibaba, Baidu и Tencent. Все они вложили миллиарды в MoE-исследования. И теперь западные компании, включая OpenAI и Google, изучают китайские наработки.

Последний совет: когда выбираете модель для своего проекта, не смотрите на общее число параметров. Смотрите на число активируемых параметров и специализацию экспертов. Модель на 1 трлн с активацией 20 млрд может быть быстрее и умнее плотной модели на 70 млрд. Проверьте на своих данных.

А если хотите глубже погрузиться в тему, начните с нашей статьи о MoE-мании, где мы разбираем экономику и стратегию.

Подписаться на канал

MoE — архитектурный стандарт китайских моделей: как работают экспертные смеси в DeepSeek, Kimi, Qwen и MiniMax