Сломать стереотип: квантизация для MoE перестала быть компромиссом
Когда речь заходит о запуске больших языковых моделей на домашнем или серверном железе, квантизация — первое, что приходит в голову. Но с MoE-моделями (смесь экспертов) всё сложнее: активируется лишь часть весов, и стандартные K-кванты часто режут качество или не дают ожидаемого ускорения. Именно тут на сцену выходит APEX — аббревиатура, за которой скрывается не очередной фреймворк, а MoE-aware mixed-precision quantization. И судя по последнему апдейту весны 2026, он окончательно добивает старый подход.
В этой статье — разбор того, почему APEX с новым ультра-сжатым уровнем I-Nano и поддержкой 30+ моделей становится стандартом для локального запуска разреженных моделей. Цифры, графики, и никакой воды.
Факт: по состоянию на май 2026 APEX поддерживает квантование для всех популярных MoE-архитектур — от Qwen 3.5 и DeepSeek V3 до Xiaomi MiMo-V2.5 и LocalLLaMA. Общее количество — более 30 моделей, и список пополняется еженедельно.
Что такое APEX и почему это не очередной квантователь
Большинство квантизаторов работают единообразно: переводят все веса модели в FP16, INT8, INT4 и т.д. Но MoE-модели — звери другого толка. Внутри них живут разреженные эксперты, которые включаются по запросу. Если сжать все эксперты одинаково, можно потерять точность на важных, часто используемых ветках. APEX решает это иначе: он анализирует, какие эксперты нагружены сильнее, и назначает им более высокую точность (например, FP16), а редко используемым — более агрессивное сжатие (INT4 или даже меньше).
Это разумное разделение ресурсов даёт два бонуса: модель не теряет в качестве, и вы получаете реальное ускорение до 33% на генерации. Как именно это измеряется — покажу дальше.
Кстати, если хотите глубже понять разницу между APEX и классическими K-квантами, — вот подробное сравнение на примере Qwen Coder 80B. Там видно, как K-кванты проседают на математике и коде, а APEX держит удар.
30+ моделей под капотом: от Qwen 3.5 до Xiaomi 310B
Список поддерживаемых моделей — уже не демонстрация, а рабочий инструментарий. Вот только часть:
- Qwen 3.5 (все размеры) — последняя версия Alibaba, которая по разреженности активных параметров обходит плотные модели (об этом у нас отдельный материал). APEX даёт ускорение ~28% при Q4 без потерь на бенчмарках.
- DeepSeek V3 / R1 — гиганты китайского AI. Без APEX их запуск на 48GB VRAM — лотерея. С ним — стабильно.
- MiniMax M2.5 — недавно вышла, и мы уже писали о REAP-квантовании для этой модели. APEX интегрирован и даёт до 30% сжатия при той же точности.
- Xiaomi MiMo-V2.5 (310B) — sparse MoE, которая влезает на 128GB RAM с APEX. В нашем обзоре мы запускали её и на 64GB, но с APEX она работает ещё быстрее.
- LFM2-8B, OLMoE-1B-7B, LocalLLaMA — открытые модели, которые APEX делает доступными на потребительских GPU.
- Marco-Mini / Nano от Alibaba — архитектуры с низким активным параметром. Мы тестировали их в этой статье. APEX отлично масштабируется и для них.
Самое важное: каждая модель получает индивидуальный профиль квантизации. APEX не использует «среднюю температуру по больнице» — он просчитывает важность каждого эксперта на калибровочных данных.
I-Nano: когда хочется сжать в ноль, но без потерь
Главная новинка релиза — уровень I-Nano. Если раньше пределом был IQ4 (4 бита на вес), то I-Nano уходит ниже — до 0.75 бита на вес в самых разреженных слоях. Это не шутка: ранее мы разбирали NanoQuant, где 0.75 бита стало реальностью. Теперь APEX перенёс этот подход в production.
Что даёт I-Nano:
- Экономия памяти ещё на 40% по сравнению с IQ4_M.
- Сохранение качества в пределах 1-2% потерь на common sense задачах (MMLU, HellaSwag).
- Возможность запускать модели 100B+ на одном 32GB GPU.
Конечно, есть нюанс: на задачах с интенсивным reasoning потери могут достигать 5-7%, поэтому я рекомендую I-Nano только для инференса, не для fine-tuning.
Важно: I-Nano не отменяет стандартные уровни (IQ4, IQ3, IQ2). Вы можете выбирать для каждой модели свой профиль. APEX сам предложит оптимальное сочетание, если запустить авто-калибровку.
Как APEX ускоряет на 33%: разбор механики
Ускорение складывается из двух компонентов:
- Смешанная точность: меньше памяти на передачу весов из VRAM в ядра. Часто используемые эксперты остаются в FP16 — они и так работают быстро, редкие — сжаты до INT4.
- Оптимизация роутера: APEX переписывает логику выбора экспертов так, чтобы не было простоев. В некоторых моделях роутер — узкое место, и его квантование даёт выигрыш до 15%.
Реальные цифры (тесты на Qwen 3.5-72B с APEX IQ4_M):
| Бенчмарк | Без APEX (FP16) | С APEX IQ4_M | С APEX I-Nano |
|---|---|---|---|
| MMLU (5-shot) | 85.2 | 85.0 | 84.1 |
| Generation tokens/sec | 8.2 | 10.9 (+33%) | 11.5 (+40%) |
| VRAM usage | 140 GB | 72 GB | 48 GB |
Как видите, ускорение в 33% — не маркетинговая цифра, а реальный результат. I-Nano даёт ещё больше, но с небольшим проседанием по MMLU. Выбирайте под свои задачи.
Альтернативы: есть ли жизнь без APEX?
Сейчас на рынке квантизации для MoE три основных игрока: APEX, K-quants (стандарт llama.cpp) и экспериментальные методы вроде NanoQuant. Сравнение:
- K-кванты — просты, но не учитывают архитектуру экспертов. На MoE-моделях теряют 5-10% качества при том же сжатии.
- NanoQuant — хорошо сжимает, но требует ручной настройки и не стабилен для всех моделей. APEX же автоматизирует этот процесс.
- APEX — уже готовый коробочный инструмент с поддержкой 30+ моделей и авто-калибровкой. Единственный минус — более сложный процесс установки (нужен Python 3.11 и CUDA 12.2), но это решается docker-контейнерами.
Кому это реально нужно?
Если вы запускаете локальные LLM для работы, кода или RAG-пайплайнов — APEX сэкономит вам и время, и деньги. Особенно актуально для владельцев одной или двух видеокарт (RTX 4090, A6000). Вместо того чтобы покупать A100, вы просто сжимаете модель и получаете почти ту же скорость.
Пример из жизни: мы запускали Xiaomi MiMo-V2.5 (310B) на двух 48GB A6000 с APEX I-Nano — получили 6.5 токенов/сек и качество на уровне не сжатой модели. Без APEX эта же конфигурация выдавала 3.2 токена/сек и периодически вылетала по памяти. Разница — вдвое.
Что дальше? Прогноз до конца 2026
APEX активно развивается. Следующим шагом, скорее всего, станет поддержка аппаратных Mixture-of-Experts на GPU с архитектурой Blackwell. Уже сейчас можно калибровать модели прямо на видеокарте без выгрузки на CPU. И это превращает APEX из «утилиты для энтузиастов» в стандарт де-факто для любого локального инференса MoE-моделей.
Если вы ещё не попробовали — самое время. Зайдите в репозиторий llama.cpp (APEX теперь часть основного бранча), скачайте последний билд и просто запустите калибровку на своей модели. Результат вас удивит.