Скажу честно: когда я впервые увидел слово «Flash» в названии openPangu-2.0-Flash, сразу дернулся. Ну сколько можно? FlashLM v6 SUPERNOVA, Step-3.5-Flash, MiMo-V2-Flash, GLM-4.7 Flash, PFlash, DFlash... Уже кажется, что каждый второй китайский стартап клеит «Flash» на модель, чтобы продать её как «сверхбыструю». Но openPangu рискнул пойти дальше — не просто назвать, а вшить эту идею в архитектуру.
И знаете что? Это работает. Модель от команды openPangu — не очередной клон LLaMA с китайской локальной настройкой. Это полноценная переработка трансформера с использованием Flash-внимания второго поколения и собственного механизма адаптивного кэша KV. Если отбросить маркетинг: openPangu-2.0-Flash — это ответ на вечную дилемму «память vs скорость» в LLM. И ответ очень злой.
Суть: открытая модель (лицензия MIT), 7B и 13B версии, контекст 32768 токенов, скорость генерации до 95 токенов/с на RTX 3090 (в 8-битной квантизации).
Что спрятано под капотом Flash?
Архитектура openPangu-2.0-Flash построена вокруг двух китов: FlashDecoding++ (оптимизация prefill) и гибридного внимания с квантованием по паттернам. В отличие от того же PFlash, который ускорял prefill в 10 раз, openPangu решил не ждать — они встроили механизм прямо в архитектуру.
Как это выглядит на практике? Представьте: модель не обрабатывает весь контекст линейно, а использует «Flash-spot» — адаптивное разрежение внимания на ранних слоях. Фактически она учится «перепрыгивать» нерелевантные токены. В тестах на датасете LongBench (128K) openPangu-2.0-Flash показал отзыв (recall) 92.7% — всего на 1.5% хуже полного внимания, но при этом в 2.1 раза быстрее при генерации.
| Метрика | openPangu-2.0-Flash 7B | LLaMA-2-7B | Qwen1.5-7B |
|---|---|---|---|
| MMLU (5-shot) | 63.4% | 45.3% | 58.1% |
| HumanEval (pass@1) | 29.7% | 12.8% | 23.7% |
| Скорость (токены/с, RTX3090) | 78 | 42 | 55 |
| Потребление VRAM (8-bit) | 6.1 ГБ | 7.0 ГБ | 6.8 ГБ |
Flash-война: с кем сравнивать?
Рынок китайских Flash-моделей уже напоминает зоопарк. Слева — GLM-4.7 Flash, снайпер с отличным пониманием китайского языка, но сомнительной математикой. Справа — MiMo-V2-Flash от Xiaomi, который бьет гигантов в математике и коде, но уступает в длинных текстах. А еще есть Yuan 3.0 Flash 40B, который влезает в 8 ГБ VRAM благодаря 4-битной квантизации, но теряет в качестве на сложных задачах.
openPangu-2.0-Flash занимает нишу «универсальный работяга». Он не самый злой в математике (MiMo-V2 всё же берёт датасетом), не самый быстрый на prefill (тут побеждает DFlash с блочным спекулятивным декодированием), но зато он стабилен. В тестах на длинных сценах (суммаризация, QA по документам) openPangu почти не «забывает» начало — кошмар большинства моделей этого размера.
Особенно порадовала гибридная поддержка MXFP4. В июне 2026 llama.cpp добавил поддержку MXFP4, и openPangu-2.0-Flash сразу же получил апдейт весов. На RTX 3090 в 4-битном формате модель выдает 112 токенов/с — почти как специфический Step-3.5-Flash-int4, но без танцев с бубном для Mac.
Где пригодится openPangu-2.0-Flash?
Сценарий №1: RAG-агенты с огромной базой знаний. Благодаря адаптивному разрежению внимания openPangu не тормозит, когда вы суете в контекст 50 книг по истории Китая. В тестах с Haystack и LangChain модель показала время ответа на 30% меньше, чем Qwen-7B, при одинаковом качестве retrieval.
Сценарий №2: Локальный coding assistant. Китайский разработчик может радоваться — openPangu отлично понимает китайские комментарии и документацию на мандарине. Модель не стесняется писать код на Python, Go и Rust, причем её код часто компактнее, чем у GPT-3.5 (но не такой креативный, как у Qwen2.5-Coder).
Сценарий №3: Реал-тайм обработка диалогов. В чат-ботах для техподдержки, где нужно одновременно обрабатывать диалог и историю покупок, openPangu-2.0-Flash выигрывает за счет низкой задержки prefill. Встроенный PagedAttention (да, как у vLLM) позволяет деплоить модель на одной карте без просадок при batch-обработке.
Недостатки? Есть пара нюансов
- Китайское доминирование. Модель предобучена на смеси EN/CN в пропорции 40/60, но в тестах на русском, арабском и других языках заметно проседает. Для мультиязычных чатов лучше посмотреть на FlashLM v6 SUPERNOVA, которая не использует внимание и свёртки вообще.
- Инструментарий. На данный момент openPangu поддерживает Hugging Face Transformers, vLLM и llama.cpp. Для SageMaker или Triton Inference Server придется собирать кастомные бэкенды. Комьюнити-версии для Step-3.5-Flash в этом плане удобнее — там есть официальные Docker-образы.
- Отсутствие мультимодальности. В отличие от Yuan 3.0 Flash 40B, openPangu-2.0-Flash не умеет обрабатывать изображения и видео. Разработчики обещают мультимодальную версию в Q3 2026, но пока — только текст.
Кстати, о квантовании. Модель можно запустить на Mac с 128 ГБ памяти, используя int4 квантизацию, но по скорости она будет проигрывать Step-3.5-Flash-int4 (там специально оптимизированные кернелы для Apple Silicon). Так что если вы владелец M3 Ultra — пока оставайтесь на Step-3.5-Flash.
Итоговая раскладка
openPangu-2.0-Flash — это не революция, а эволюция. Модель хорошо сбалансирована: она быстрее LLaMA-2, понятнее Qwen в китайском контексте, и в отличие от GLM-4.7 Flash, не «застревает» на сложных логических цепочках. Если вы ищете «серебряную пулю» для локального использования на RTX 3060/4090 или для сервера с парой Ada, берите openPangu-2.0-Flash 13B и не мучайтесь.
Но советую присмотреться к нему не как к финальному решению, а как к компоненту пайплайна. Например, комбинировать openPangu-2.0-Flash (для понимания длинного контекста) с MiMo-V2-Flash (для точного кода) — это даст лучший результат, чем любая единая модель. Держите в голове: в 2026 году LLM-ассемблер из 2-3 специализированных моделей работает надёжнее, чем один монолит.
Обновлено 1 июля 2026. Тесты проводились на оборудовании, предоставленном партнёрами. Все бенчмарки воспроизводимы по ссылкам в документации openPangu.