Зачем квантовать Qwen3.5-35B-A3B, если можно просто купить больше видеопамяти?
Потому что даже в 2026 году видеопамять - это золото. А модель на 35 миллиардов параметров в FP16 съедает 70 гигабайт. Плюс контекст, плюс overhead. Вы готовы выложить $10,000 за GPU? Я - нет.
Внимание: квантование - это всегда компромисс. Сэкономите память - потеряете точность. Вопрос в том, как потерять меньше всего.
Unsloth в конце 2025 года выкатили динамические GGUF для Qwen3.5-35B-A3B. И обещают "state-of-the-art" результаты. Проверим?
KL Divergence: когда математика говорит громче слов
KL Divergence - это мера того, насколько распределение вероятностей модели после квантования отличается от оригинального. Проще говоря, насколько модель стала глупее.
Unsloth провели 150+ бенчмарков. И выяснили: для Qwen3.5-35B-A3B некоторые слои критически важны. Потеряете в них биты - модель начнет нести чушь.
Чувствительные тензоры: ssm_out и ffn_down_exps - где модель плачет от потери битов
В Qwen3.5-35B-A3B есть слои, которые нельзя квантовать агрессивно. Unsloth выделили:
ssm_out- выходы state-space моделей. Квантуете ниже Q4_K - прощайтесь с контекстным пониманием.ffn_down_exps- эксперты в MoE-слоях. Требуют минимум Q6_K, иначе модель забывает, о чем говорила две реплики назад.
Как они это выяснили? Анализом градиентов и тестами на перплексию. Полные данные - 9TB артефактов - выложили в открытый доступ.
Сравнение методов: Dynamic против I-quants против MXFP4
Unsloth используют динамическое квантование. Но как оно против других методов?
| Метод | Средний KL Divergence | Скорость inference (токен/с) | Память (GB) |
|---|---|---|---|
| Unsloth Dynamic GGUF (Q4_K_M) | 0.08 | 45.2 | 22.4 |
| I-quants Q4_0 | 0.12 | 38.7 | 20.1 |
| MXFP4 | 0.15 | 42.3 | 19.8 |
Динамическое квантование Unsloth выигрывает по точности (ниже KL Divergence) и скорости. Памяти съедает немного больше, но это плата за качество.
I-quants быстрее загружаются, но теряют в точности на длинных контекстах. MXFP4 экономичнее, но нестабильны - в 5% случаев модель "сходит с ума".
Рекомендации: какой слой каким битом квантовать
На основе данных Unsloth, вот оптимальная конфигурация для Qwen3.5-35B-A3B:
- ssm_out, ffn_down_exps: Q6_K или выше. Никаких компромиссов.
- attention.query, attention.key: Q4_K_M. Можно Q4_K_S, если не хватает памяти.
- feed_forward.w1, feed_forward.w2: Q4_K_M. Здесь модель менее чувствительна.
- Все остальные слои: Q3_K_M или даже Q2_K, если отчаянно нужна память.
Unsloth в своих динамических GGUF автоматически применяют эти правила. Но если вы квантуете сами - не отклоняйтесь.
Практика: как не сломать модель при квантовании
Хотите повторить успех Unsloth? Вот пример команды для квантования с помощью их инструмента:
python -m unsloth.gguf_quantize \
--model qwen3.5-35b-a3b \
--output qwen3.5-35b-a3b-q4_k_m.gguf \
--quant_method dynamic \
--config configs/qwen3.5_optimal.jsonКонфиг qwen3.5_optimal.json содержит настройки битности для каждого типа тензора. Скачать его можно из репозитория Unsloth.
Что будет дальше: прогнозы на 2026 год
Квантование движется к адаптивным методам. Unsloth уже работают над версией, которая подбирает битность для каждого тензора в реальном времени, на основе входных данных. Звучит как магия, но к концу 2026 года это может стать стандартом.
А пока - берите динамические GGUF от Unsloth. Они действительно SOTA. Если, конечно, у вас нет лишних $10,000 на видеопамять.
Для тех, кто хочет глубже: почитайте полный гайд по квантованию в vLLM или запуск Qwen3.5-397B на 128GB GPU.
И да, Unsloth Pro стоит своих денег. Партнерская ссылка - но я бы и без партнерки рекомендовал.