Динамическое квантование выросло. Наконец-то

В феврале 2026 года команда Unsloth выкатила Dynamic 2.0. Если первая версия была экспериментом, то вторая — это уже полноценный инструмент, который ломает представление о балансе между качеством и размером модели. Старое равномерное квантование (типа Q4_K_M) теперь выглядит как топорная работа. Зачем грубо обрезать все слои, если можно подойти с хирургической точностью?

Ключевое обновление на 28.02.2026: Dynamic 2.0 научился анализировать не просто важность слоя, а контекстную чувствительность весов внутри одного слоя. Раньше слой attention получал, скажем, 4 бита целиком. Теперь внутри этого слоя разные матрицы квантуются с разной точностью.

Как работает эта штука? Не так, как вы думаете

Алгоритм Dynamic 2.0 проходит три этапа. Сначала — прогон калибровочного датасета через модель в FP16. Система смотрит, как колеблются активации. Не веса, а именно активации. Это важно. Потому что вес может быть большим по значению, но влиять на итоговый результат минимально.

Второй этап — кластеризация. Модель разбивается на сотни микро-блоков. Не просто «входные слои, attention, FFN». А, например, query projections в 15-м слое или gate matrix в MoE-эксперте. Для каждого блока рассчитывается своя метрика чувствительности.

Третий этап — распределение бит. Здесь Dynamic 2.0 использует алгоритм, похожий на рюкзак. Есть общий бюджет (например, среднее 3.2 бита), и нужно распределить точность так, чтобы минимизировать потерю качества. Критические блоки получают 4.5 или даже 5 бит. Остальное сжимается до 2 бит, а где-то и до 1.5 (используя новые типы квантования IQ1.5).

💡

В Dynamic 1.0 слой attention мог быть одним блоком. В Dynamic 2.0 он делится на Q, K, V проекции, output projection и scoring matrix. Каждая часть получает свой битрейт. На практике это дает дополнительную экономию памяти в 8-12% при том же уровне качества по сравнению с первой версией.

Сравнение: что было и что стало

Пора перестать говорить о «динамическом квантовании» в целом. После февраля 2026 года есть две разные эпохи: до 2.0 и после.

Метод	Средний битрейт	Падение качества (MMLU)	Размер модели 70B	Скорость инференса*
Q4_K_M (GGUF)	4.0	-2.5%	~40 ГБ	База (1.0x)
Unsloth Dynamic 1.0 (Q3)	3.2	-3.8%	~32 ГБ	1.1x
Unsloth Dynamic 2.0 (Q3)	3.2	-2.1%	~30 ГБ	1.3x

*Тест на CPU Intel Core i9-14900K, 64 ГБ DDR5, llama.cpp. Относительная скорость генерации.

Видите разницу? Dynamic 2.0 при том же среднем битрейте (3.2) показывает меньшее падение качества, чем статическое Q4_K_M. И это при меньшем размере файла. Ускорение инференса возникает из-за двух факторов: более эффективного использования кэша процессора и уменьшения объема данных, которые нужно перетаскивать из оперативки.

Главный конкурент — не другие GGUF-квантовальщики, а проприетарные форматы вроде EXL2 или AWQ. Но на 28.02.2026 у них своя беда: они заточены под GPU. Dynamic 2.0 же создан для гибридного режима (CPU+GPU) и особенно хорошо работает на Mac с чипами Apple Silicon. На M4 Max 128GB Dynamic 2.0 для MiniMax-2.5 дает прирост в 15-20 токенов в секунду по сравнению с обычным Q3.

Пример из жизни: оживляем монстра

Возьмем MiniMax-2.5 — 230-миллиардного MoE-гиганта. В феврале 2025 его квантовали с помощью Dynamic 1.0 до 64 ГБ. Результат был хорош, но в сложных диалогах модель могла «терять нить».

С Dynamic 2.0 картина меняется. Новый алгоритм особенно внимательно относится к router layers в MoE-архитектуре — тем самым компонентам, которые решают, какого эксперта задействовать. В версии 1.0 они получали столько же бит, сколько и остальные. В 2.0 — им автоматически назначается повышенная точность (4.2-4.5 бита). На выходе получаем тот же размер файла (все еще около 64 ГБ), но модель на 7-10% лучше справляется с многошаговыми рассуждениями в бенчмарке BigBench Hard.

Этот пример показывает силу контекстно-зависимого анализа. Dynamic 2.0 не просто читает архитектуру модели из config.json. Он понимает функциональную роль блока во время инференса.

Кому это нужно? (Спойлер: не всем)

Если вы качаете готовые GGUF-файлы с Hugging Face и запускаете 7B-модель на ноутбуке — можете спокойно жить с Q4_K_M. Dynamic 2.0 — инструмент для другой лиги.

Энтузиасты, которые хотят запихнуть модель 70B+ на свое железо. Каждый гигабайт и каждый процент качества на счету. Здесь Dynamic 2.0 — это единственный разумный выбор в 2026 году.
Разработчики, которые готовят квантованные модели для распространения. Хотите, чтобы ваша версия Qwen3.5-32B была лучше, чем у конкурентов? Используйте Dynamic 2.0. Но готовьтесь к тому, что процесс квантования теперь занимает в 1.5-2 раза дольше из-за детального анализа.
Владельцы Mac с Apple Silicon. Поскольку llama.cpp и родственные проекты оптимизированы под Neural Engine, выигрыш от умного распределения бит здесь максимален. На M3/M4 разница между Dynamic 1.0 и 2.0 ощущается «на пальцах».

А вот если у вас мощная серверная GPU (A100/H100) и вы используете TensorRT-LLM или vLLM, то Dynamic 2.0 вам, скорее всего, не нужен. Его магия раскрывается именно на ограниченных ресурсах и при CPU/гибридном инференсе.

⚠️

Предупреждение от практика: Dynamic 2.0 — не волшебная палочка. Если исходная квантовка модели сделана плохо (как в случае с некоторыми ранними GGUF для Kimi-K2.5, о чем мы уже писали), то новая версия алгоритма не спасет. Она работает с весами, а не исправляет архитектурные косяки.

Что в итоге? Совет, который не дадут в документации

Unsloth Dynamic 2.0 — это серьезный шаг вперед. Он превращает квантование из грубого сжатия в тонкую настройку. Но его главная фишка даже не в алгоритме, а в интеграции с экосистемой.

Инструмент теперь по умолчанию встроен в GGUF Tool Suite Web UI и автоматически предлагается как оптимальный пресет для моделей размером от 30B. Вам не нужно быть экспертом — просто выберите "Dynamic 2.0 Q3" вместо "Q3_K_M".

Мой прогноз? К середине 2026 года все качественные квантовки для моделей-гигантов (Think DeepSeek-V3, MiniMax-2.6, ожидаемый Gemini 3.5 Ultra) будут использовать именно эту технологию или ее прямых клонов. А статическое квантование останется для мелких моделей, где разница несущественна.

И последний совет: если собираетесь квантовать модель сами, всегда делайте калибровку на датасете, похожем на ваши задачи. Dynamic 2.0 позволяет загрузить свой калибровочный набор. Не используйте стандартный C4. Возьмите стэк Exchange для кода или набор длинных диалогов. Алгоритм подстроится под вашу специфику, и результат будет на 10-15% лучше. Это тот самый нюанс, который все упускают.

Подписаться на канал

Unsloth Dynamic 2.0: Как умное выборочное квантование GGUF ускоряет инференс и экономит память