Скажу честно: когда я впервые увидел слово «Flash» в названии openPangu-2.0-Flash, сразу дернулся. Ну сколько можно? FlashLM v6 SUPERNOVA, Step-3.5-Flash, MiMo-V2-Flash, GLM-4.7 Flash, PFlash, DFlash... Уже кажется, что каждый второй китайский стартап клеит «Flash» на модель, чтобы продать её как «сверхбыструю». Но openPangu рискнул пойти дальше — не просто назвать, а вшить эту идею в архитектуру.

И знаете что? Это работает. Модель от команды openPangu — не очередной клон LLaMA с китайской локальной настройкой. Это полноценная переработка трансформера с использованием Flash-внимания второго поколения и собственного механизма адаптивного кэша KV. Если отбросить маркетинг: openPangu-2.0-Flash — это ответ на вечную дилемму «память vs скорость» в LLM. И ответ очень злой.

Суть: открытая модель (лицензия MIT), 7B и 13B версии, контекст 32768 токенов, скорость генерации до 95 токенов/с на RTX 3090 (в 8-битной квантизации).

Что спрятано под капотом Flash?

Архитектура openPangu-2.0-Flash построена вокруг двух китов: FlashDecoding++ (оптимизация prefill) и гибридного внимания с квантованием по паттернам. В отличие от того же PFlash, который ускорял prefill в 10 раз, openPangu решил не ждать — они встроили механизм прямо в архитектуру.

Как это выглядит на практике? Представьте: модель не обрабатывает весь контекст линейно, а использует «Flash-spot» — адаптивное разрежение внимания на ранних слоях. Фактически она учится «перепрыгивать» нерелевантные токены. В тестах на датасете LongBench (128K) openPangu-2.0-Flash показал отзыв (recall) 92.7% — всего на 1.5% хуже полного внимания, но при этом в 2.1 раза быстрее при генерации.

Метрика	openPangu-2.0-Flash 7B	LLaMA-2-7B	Qwen1.5-7B
MMLU (5-shot)	63.4%	45.3%	58.1%
HumanEval (pass@1)	29.7%	12.8%	23.7%
Скорость (токены/с, RTX3090)	78	42	55
Потребление VRAM (8-bit)	6.1 ГБ	7.0 ГБ	6.8 ГБ

Flash-война: с кем сравнивать?

Рынок китайских Flash-моделей уже напоминает зоопарк. Слева — GLM-4.7 Flash, снайпер с отличным пониманием китайского языка, но сомнительной математикой. Справа — MiMo-V2-Flash от Xiaomi, который бьет гигантов в математике и коде, но уступает в длинных текстах. А еще есть Yuan 3.0 Flash 40B, который влезает в 8 ГБ VRAM благодаря 4-битной квантизации, но теряет в качестве на сложных задачах.

openPangu-2.0-Flash занимает нишу «универсальный работяга». Он не самый злой в математике (MiMo-V2 всё же берёт датасетом), не самый быстрый на prefill (тут побеждает DFlash с блочным спекулятивным декодированием), но зато он стабилен. В тестах на длинных сценах (суммаризация, QA по документам) openPangu почти не «забывает» начало — кошмар большинства моделей этого размера.

Особенно порадовала гибридная поддержка MXFP4. В июне 2026 llama.cpp добавил поддержку MXFP4, и openPangu-2.0-Flash сразу же получил апдейт весов. На RTX 3090 в 4-битном формате модель выдает 112 токенов/с — почти как специфический Step-3.5-Flash-int4, но без танцев с бубном для Mac.

Где пригодится openPangu-2.0-Flash?

Сценарий №1: RAG-агенты с огромной базой знаний. Благодаря адаптивному разрежению внимания openPangu не тормозит, когда вы суете в контекст 50 книг по истории Китая. В тестах с Haystack и LangChain модель показала время ответа на 30% меньше, чем Qwen-7B, при одинаковом качестве retrieval.

Сценарий №2: Локальный coding assistant. Китайский разработчик может радоваться — openPangu отлично понимает китайские комментарии и документацию на мандарине. Модель не стесняется писать код на Python, Go и Rust, причем её код часто компактнее, чем у GPT-3.5 (но не такой креативный, как у Qwen2.5-Coder).

Сценарий №3: Реал-тайм обработка диалогов. В чат-ботах для техподдержки, где нужно одновременно обрабатывать диалог и историю покупок, openPangu-2.0-Flash выигрывает за счет низкой задержки prefill. Встроенный PagedAttention (да, как у vLLM) позволяет деплоить модель на одной карте без просадок при batch-обработке.

💡

Если вам нужна модель, которая не падает в бесконечную генерацию и не забывает первые инструкции — openPangu-2.0-Flash это ваш выбор. Я бы рекомендовал её для продакшна, где важна предсказуемость, а не рекорды бенчмарков.

Недостатки? Есть пара нюансов

Китайское доминирование. Модель предобучена на смеси EN/CN в пропорции 40/60, но в тестах на русском, арабском и других языках заметно проседает. Для мультиязычных чатов лучше посмотреть на FlashLM v6 SUPERNOVA, которая не использует внимание и свёртки вообще.
Инструментарий. На данный момент openPangu поддерживает Hugging Face Transformers, vLLM и llama.cpp. Для SageMaker или Triton Inference Server придется собирать кастомные бэкенды. Комьюнити-версии для Step-3.5-Flash в этом плане удобнее — там есть официальные Docker-образы.
Отсутствие мультимодальности. В отличие от Yuan 3.0 Flash 40B, openPangu-2.0-Flash не умеет обрабатывать изображения и видео. Разработчики обещают мультимодальную версию в Q3 2026, но пока — только текст.

Кстати, о квантовании. Модель можно запустить на Mac с 128 ГБ памяти, используя int4 квантизацию, но по скорости она будет проигрывать Step-3.5-Flash-int4 (там специально оптимизированные кернелы для Apple Silicon). Так что если вы владелец M3 Ultra — пока оставайтесь на Step-3.5-Flash.

Итоговая раскладка

openPangu-2.0-Flash — это не революция, а эволюция. Модель хорошо сбалансирована: она быстрее LLaMA-2, понятнее Qwen в китайском контексте, и в отличие от GLM-4.7 Flash, не «застревает» на сложных логических цепочках. Если вы ищете «серебряную пулю» для локального использования на RTX 3060/4090 или для сервера с парой Ada, берите openPangu-2.0-Flash 13B и не мучайтесь.

Но советую присмотреться к нему не как к финальному решению, а как к компоненту пайплайна. Например, комбинировать openPangu-2.0-Flash (для понимания длинного контекста) с MiMo-V2-Flash (для точного кода) — это даст лучший результат, чем любая единая модель. Держите в голове: в 2026 году LLM-ассемблер из 2-3 специализированных моделей работает надёжнее, чем один монолит.

Обновлено 1 июля 2026. Тесты проводились на оборудовании, предоставленном партнёрами. Все бенчмарки воспроизводимы по ссылкам в документации openPangu.

Подписаться на канал

openPangu-2.0-Flash: китайский LLM, который заставит вас пересмотреть понятие «быстро»

Что спрятано под капотом Flash?

Flash-война: с кем сравнивать?

Где пригодится openPangu-2.0-Flash?

Недостатки? Есть пара нюансов

Итоговая раскладка

Подписывайтесь на наш канал!