Почему нельзя использовать imatrix для QAT-моделей?

Imatrix собирает статистику по активациям для улучшения квантования, но QAT-модели уже обучены с учётом квантования. Добавление imatrix искажает веса и ломает модель.

Какие ещё модели используют QAT?

Помимо Gemma 3, QAT могут использовать некоторые версии моделей от Google, а также специализированные модели для мобильных устройств. Всегда проверяйте документацию к модели.

Gemma 3 1B Q4_0 GGUF: Гайд по квантованию QAT без imatrix

Почему Gemma 3 1B ломается при квантовании?

Вы скачали свежую Gemma 3 1B, запустили стандартный конвертер из llama.cpp и получили модель, которая молчит как рыба или генерирует бессвязный бред. Знакомая история? Проблема не в вас. Дело в том, что Gemma 3 использует Quantization-Aware Training (QAT) — особый вид квантования, который уже зашит в веса. Стандартный подход с imatrix здесь не просто бесполезен, он вреден.

Использование флага --imatrix для QAT-модели Gemma 3 — гарантированный способ испортить её. Imatrix нужен для сбора статистики по активациям, но QAT-модель уже обучена с учётом квантования, и дополнительная "помощь" только вносит искажения.

1Скачиваем исходники и собираем инструменты

Первым делом клонируем llama.cpp и саму модель. Не берите готовые GGUF из непроверенных источников — часто там кривые метаданные.

git clone https://github.com/ggerganov/llama.cpp
cd llama.cpp
make -j4

# Скачиваем оригинальную Gemma 3 1B (не квантованную!)
huggingface-cli download google/gemma-3-1b-it --local-dir ./gemma-3-1b

💡

Убедитесь, что у вас установлены все зависимости для llama.cpp (CMake, GCC). Если собираетесь квантовать другие модели, например Qwen3-30B, процесс будет аналогичным, но флаги могут отличаться.

2Конвертируем в GGUF с правильными флагами

Здесь главное — не наставить лишних опций. Для QAT-модели используем только базовое квантование, без импорта матриц.

python convert-hf-to-gguf.py ./gemma-3-1b --outtype q4_0 --outfile gemma-3-1b-q4_0.gguf

# Критически важный момент: НЕ используйте --imatrix или --quantize-output
# Это сломает модель!

Флаг --outtype q4_0 указывает на формат квантования. Для Gemma 3 1B Q4_0 — оптимальный баланс между размером и качеством. Если сомневаетесь в выборе формата, посмотрите подробное сравнение GGUF-форматов.

3Чиним метаданные и токенизатор

Частая проблема — некорректные метаданные в GGUF-файле. Gemma 3 использует особый токенизатор, который нужно правильно прописать.

# Проверяем метаданные
gguf-tools info gemma-3-1b-q4_0.gguf | grep tokenizer

# Если tokenizer.ggml.model отсутствует или указан неверно, исправляем
# Используем утилиту gguf-set-metadata из llama.cpp/tools
./tools/gguf-set-metadata gemma-3-1b-q4_0.gguf tokenizer.ggml.model gemma

Если пропустить этот шаг, модель может не распознавать контекст или падать при генерации. Токенизатор — это как словарь для модели, и если он битый, то и вывод будет бессмысленным.

Зачем вообще нужен imatrix и когда его использовать?

Imatrix — это файл со статистикой по активациям модели, который помогает точнее квантовать веса. Он полезен для обычных (не QAT) моделей, где нужно минимизировать потери от сжатия. Например, для MiniMax M2.1 или Baichuan-M3 сбор imatrix может улучшить качество.

Тип модели	Нужен imatrix?	Что будет если использовать
Обычная (FP16)	Да, улучшает качество	Меньшие потери при квантовании
QAT (как Gemma 3)	Нет, только навредит	Искажение весов, поломка модели
Уже квантованная GGUF	Бессмысленно	Ничего не изменится

Сравнение с альтернативами: GPTQ, AWQ и другие

GGUF — не единственный формат квантования. Есть ещё GPTQ, AWQ, Marlin. Для Gemma 3 1B GGUF с Q4_0 — самый стабильный вариант. GPTQ может дать выигрыш в скорости на некоторых GPU, но требует специфичной поддержки драйверов. AWQ теоретически точнее, но на практике для маленькой модели в 1B параметров разница незаметна.

Если вы работаете с большими моделями вроде Qwen3-30B, то выбор формата критичен для умещения в VRAM. Для Gemma 3 1B даже полная версия в FP16 занимает немного, так что Q4_0 — это скорее экономия места на диске и ускорение инференса на слабом CPU.

Запускаем модель и проверяем результат

После всех манипуляций тестируем модель. Запускаем llama.cpp с минимальными настройками.

./main -m gemma-3-1b-q4_0.gguf -p "Сколько будет 2+2?" -n 50 -t 4

# Если всё сделано правильно, модель ответит что-то вроде:
# "2 + 2 = 4. Это базовое арифметическое действие."
# Если ответ бессвязный — проверьте шаг 3 с метаданными.

💡

Для более сложных задач, например программирования, можно сравнить качество ответов с другими квантованиями, как в статье про MiniMax M2.1. Но для Gemma 3 1B главное — стабильность работы.

Кому вообще нужна эта возня с квантованием?

Этот метод для тех, кто:

Хочет запускать Gemma 3 1B на Raspberry Pi или другом маломощном устройстве.
Не доверяет готовым GGUF из интернета и предпочитает собирать всё сам.
Столкнулся с ошибками при использовании стандартного квантования с imatrix.
Разрабатывает встраиваемые AI-решения, где каждый мегабайт памяти на счету.

Если же вы просто хотите потестировать модель на мощной видеокарте, возможно, проще использовать оригинальную версию в FP16 через трансформеры. Но если вы читаете эту статью, то вам точно нужен именно GGUF.

И последний совет: никогда не квантуйте QAT-модели с imatrix. Это как добавлять приправу в уже готовое блюдо шеф-повара — испортите и то, и другое. Доверяйте тому, как модель была обучена.

Gemma 3 1B Q4_0 GGUF: как правильно квантовать QAT-модель без imatrix