Триллион параметров в открытом доступе: почему Yuan3.0-Ultra взорвала сообщество

Март 2026-го. Выпускают модель на триллионе параметров. Веса - открытые. Архитектура - MoE (Mixture of Experts). И какой-то LAEP-алгоритм внутри. Звучит как розыгрыш для хайпа, но нет - Yuan3.0-Ultra реально работает. И да, ее можно запустить не на суперкомпьютере, а на кластере из нескольких consumer-видеокарт. Как так вышло? Все дело в хитрой архитектуре и умном прореживании.

💡

LAEP (Learning-Aware Evolutionary Pruning) - это не просто очередной алгоритм прунинга. Он анализирует, как разные части модели обучаются во время fine-tuning, и отсекает только те, что не вносят вклад в конечное качество. Результат - модель в 5-10 раз компактнее при сохранении 98-99% производительности.

Архитектура: MoE с изюминкой LAEP

Yuan3.0-Ultra построена на классической, но усовершенствованной архитектуре Mixture of Experts (MoE). Вместо плотных слоев тут 128 экспертов, каждый - специалист в своей области (код, естественный язык, логика). На каждый токен активируется только 4 эксперта. Это и есть та самая разреженность, которая позволяет иметь триллион параметров в теории, а на практике загружать в память лишь часть.

Но фишка не только в MoE. LAEP-алгоритм прошелся по модели после предобучения и безжалостно отрезал 90% связей, которые не влияли на качество. Это как взять толстую книгу и вырвать все пустые страницы - содержимое остается, а вес уменьшается. Поэтому итоговый checkpoint весит "всего" 280 ГБ вместо теоретических 2 ТБ.

Что умеет эта махина?

Мультимодальность из коробки. Модель понимает текст, изображения, таблицы и простые графики. Не на уровне GPT-4o 2026 года, но для open-source решения - очень достойно.
RAG (Retrieval-Augmented Generation) как родной. Благодаря архитектуре, Yuan3.0-Ultra идеально работает с векторными базами данных. Контекстное окно - 128К токенов. Если вам нужен снайпер для RAG, то эта модель - кандидат.
Кодогенерация и анализ. Один из экспертов заточен исключительно под программирование. Результаты на HumanEval - 87.4%, что выше, чем у специализированных кодогенераторов 2024 года.
Понимание длинных контекстов. 128К токенов - это не маркетинг. Модель действительно использует всю длину, что подтверждают тесты Needle In A Haystack.

Сравнение с альтернативами: стоит ли переходить с Mixtral или Qwen?

Модель	Параметры	Архитектура	Потребление VRAM (инференс)	Сильные стороны
Yuan3.0-Ultra	1.1T (активных ~40B)	MoE + LAEP	~80 ГБ (4x RTX 4090)	Мультимодальность, RAG, открытые веса
Mixtral 8x22B (2024)	141B	MoE	~45 ГБ	Баланс скорости и качества
Qwen 3.5 MoE 32B	32B (активных)	Ultra-sparse MoE	~20 ГБ	Эффективность, китайский язык
EXAONE MoE 236B	236B	MoE	~120 ГБ	Мультимодальность, научные знания

Вывод простой: Yuan3.0-Ultra - это не замена маленьким MoE-моделям для локального запуска. Это инструмент для тех, кому нужна максимальная производительность в enterprise-сценариях и есть железо. Если у вас одна RTX 4090, смотрите в сторону оптимизированных MoE-моделей.

Где и как использовать Yuan3.0-Ultra?

Представьте, что у вас есть терабайт технической документации, и нужно построить умного ассистента, который отвечает на вопросы по ней. Обычные модели теряют контекст после 4-8 тысяч токенов. Yuan3.0-Ultra - проглатывает всю документацию и выдает точные ответы, ссылаясь на разделы.

Или другой сценарий - анализ медицинских снимков с историей болезни. Мультимодальность позволяет сопоставить текст из карты пациента с рентгеном и предложить диагноз. Да, для этого нужна тонкая настройка, но архитектура MoE позволяет обучать только конкретных экспертов, что сокращает затраты.

Не обольщайтесь: запуск триллионной модели даже с LAEP - это не про щелчок пальцами. Вам потребуется минимум 4 видеокарты с 24 ГБ VRAM каждая, или специализированный кластер. Инференс не быстрый - 2-3 токена в секунду на сложных промптах. Это инструмент для batch-обработки, а не для чат-интерфейса в реальном времени.

Кому подойдет, а кому нет?

Берите Yuan3.0-Ultra, если:

У вас enterprise-задача с большими контекстами (юридические документы, кодовая база, исследования).
Есть бюджет на железо и вы готовы возиться с распределенным инференсом.
Цените открытые веса и хотите иметь полный контроль над моделью (например, для дообучения на чувствительных данных).
Нужна мультимодальность без использования сторонних API.

Посмотрите в сторону других моделей, если:

У вас одна мощная видеокарта. Вам подойдут компактные MoE-модели.
Нужна высокая скорость ответа (чаты, ассистенты).
Не хотите разбираться с кластеризацией и оптимизацией. Возьмите облачный API от крупных вендоров.

Китайские разработчики сделали то, о чем многие говорили: открыли триллионную модель. Но демократизация ИИ - это не только про открытые веса. Это про возможность запустить модель на доступном железе. Yuan3.0-Ultra - шаг в правильном направлении, но до настоящей демократии еще далеко. Моя рекомендация? Если у вас нет команды инженеров по машинному обучению, начните с ультра-разреженных MoE поменьше. А за Yuan3.0-Ultra присматривайте - через год-два появятся инструменты, которые сделают ее запуск таким же простым, как Mixtral сегодня.

Подписаться на канал

Yuan3.0-Ultra: обзор триллионной MoE-модели с открытыми весами и LAEP-алгоритмом