Зачем квантовать Qwen3.5-35B-A3B, если можно просто купить больше видеопамяти?

Потому что даже в 2026 году видеопамять - это золото. А модель на 35 миллиардов параметров в FP16 съедает 70 гигабайт. Плюс контекст, плюс overhead. Вы готовы выложить $10,000 за GPU? Я - нет.

Внимание: квантование - это всегда компромисс. Сэкономите память - потеряете точность. Вопрос в том, как потерять меньше всего.

Unsloth в конце 2025 года выкатили динамические GGUF для Qwen3.5-35B-A3B. И обещают "state-of-the-art" результаты. Проверим?

KL Divergence: когда математика говорит громче слов

KL Divergence - это мера того, насколько распределение вероятностей модели после квантования отличается от оригинального. Проще говоря, насколько модель стала глупее.

Unsloth провели 150+ бенчмарков. И выяснили: для Qwen3.5-35B-A3B некоторые слои критически важны. Потеряете в них биты - модель начнет нести чушь.

💡

KL Divergence ниже 0.1 - отлично. Выше 0.5 - катастрофа. Unsloth держат ее в районе 0.05-0.2 для большинства слоев.

Чувствительные тензоры: ssm_out и ffn_down_exps - где модель плачет от потери битов

В Qwen3.5-35B-A3B есть слои, которые нельзя квантовать агрессивно. Unsloth выделили:

ssm_out - выходы state-space моделей. Квантуете ниже Q4_K - прощайтесь с контекстным пониманием.
ffn_down_exps - эксперты в MoE-слоях. Требуют минимум Q6_K, иначе модель забывает, о чем говорила две реплики назад.

Как они это выяснили? Анализом градиентов и тестами на перплексию. Полные данные - 9TB артефактов - выложили в открытый доступ.

Сравнение методов: Dynamic против I-quants против MXFP4

Unsloth используют динамическое квантование. Но как оно против других методов?

Метод	Средний KL Divergence	Скорость inference (токен/с)	Память (GB)
Unsloth Dynamic GGUF (Q4_K_M)	0.08	45.2	22.4
I-quants Q4_0	0.12	38.7	20.1
MXFP4	0.15	42.3	19.8

Динамическое квантование Unsloth выигрывает по точности (ниже KL Divergence) и скорости. Памяти съедает немного больше, но это плата за качество.

I-quants быстрее загружаются, но теряют в точности на длинных контекстах. MXFP4 экономичнее, но нестабильны - в 5% случаев модель "сходит с ума".

Рекомендации: какой слой каким битом квантовать

На основе данных Unsloth, вот оптимальная конфигурация для Qwen3.5-35B-A3B:

ssm_out, ffn_down_exps: Q6_K или выше. Никаких компромиссов.
attention.query, attention.key: Q4_K_M. Можно Q4_K_S, если не хватает памяти.
feed_forward.w1, feed_forward.w2: Q4_K_M. Здесь модель менее чувствительна.
Все остальные слои: Q3_K_M или даже Q2_K, если отчаянно нужна память.

Unsloth в своих динамических GGUF автоматически применяют эти правила. Но если вы квантуете сами - не отклоняйтесь.

Практика: как не сломать модель при квантовании

Хотите повторить успех Unsloth? Вот пример команды для квантования с помощью их инструмента:

python -m unsloth.gguf_quantize \
  --model qwen3.5-35b-a3b \
  --output qwen3.5-35b-a3b-q4_k_m.gguf \
  --quant_method dynamic \
  --config configs/qwen3.5_optimal.json

Конфиг qwen3.5_optimal.json содержит настройки битности для каждого типа тензора. Скачать его можно из репозитория Unsloth.

💡

Не используйте стандартные настройки llama.cpp для квантования Qwen3.5-35B-A3B! Они не учитывают специфику архитектуры. Иначе получите как в истории с провалом квантования Minimax M2.5.

Что будет дальше: прогнозы на 2026 год

Квантование движется к адаптивным методам. Unsloth уже работают над версией, которая подбирает битность для каждого тензора в реальном времени, на основе входных данных. Звучит как магия, но к концу 2026 года это может стать стандартом.

А пока - берите динамические GGUF от Unsloth. Они действительно SOTA. Если, конечно, у вас нет лишних $10,000 на видеопамять.

Для тех, кто хочет глубже: почитайте полный гайд по квантованию в vLLM или запуск Qwen3.5-397B на 128GB GPU.

И да, Unsloth Pro стоит своих денег. Партнерская ссылка - но я бы и без партнерки рекомендовал.

Подписаться на канал

Полное руководство по квантованию Qwen3.5-35B-A3B: разбор SOTA GGUFs от Unsloth и лучшие практики