Красивая теория и суровая практика квантования

Turboquant от Google громко заявил о себе в конце 2024-го. Заявка грандиозная: сжимай активации в режиме реального времени почти без потерь. Алгоритм, который в теории должен быть аналогом Pied Piper из «Кремниевой долины». Вспоминаем статью Google TurboQuant — алгоритм сжатия памяти для ИИ. Суть в использовании rotation матриц (они же Householder reflections) для трансформации пространства весов перед квантованием. Идея? Сгруппировать выбросы (outliers) в отдельное измерение, чтобы квантовать их точнее.

Звучит умно. Работает? Да, но с одним гигантским «но». Пока все радовались улучшенной реконструкции аутлайеров в Qwen2.5-32B, никто не замечал тихого убийства спарсити. А ведь именно спарсити активаций — секретный соус для эффективного инференса на CPU и мобилках.

Главный парадокс Turboquant: rotation матрицы улучшают MSE (среднеквадратичную ошибку) на 5-10%, но при этом превращают разреженные активации в плотный суп. На практике это означает, что ваш оптимизированный inference-движок для Raspberry Pi 5 (создание своего движка) внезапно начинает тормозить в 1.5 раза сильнее.

Что на самом деле делают rotation матрицы с вашими активациями

Давайте без матана. Представьте вектор активаций из слоя MLP в Llama 3.1. Типичная картина: 90% значений близки к нулю, 10% — выбросы. Квантуете в INT4 — выбросы ломают всю точность. Turboquant предлагает: давайте повернем пространство так, чтобы все выбросы оказались в одном-двух измерениях. Потом эти измерения квантуем с высокой точностью (например, в 8 бит), а остальные — в 2 бита.

Проблема в том, что это «вращение» — линейное преобразование. Оно перемешивает все компоненты вектора. Те нули, которые были разбросаны по разным измерениям, теперь складываются и дают ненулевые значения. Спарсити падает с 90% до 40-50%. Это не теория — мы замеряли на Qwen2.5-7B и 32B с помощью модифицированного скрипта из гайда по vLLM.

Метод квантования	Средняя спарсити активаций (%)	Perplexity (WikiText-2)
FP16 (базовая)	91.2	5.8
Turboquant (QJL) 3.5 бита	47.8	6.1
GGUF Q4_K_M	85.3	6.3

Почему потеря спарсити — это не просто цифра в таблице

В инференсе LLM, особенно на CPU, разреженные матрицы — священный грааль. AVX-512 инструкции, специализированные ядра в llama.cpp — все заточено под работу с нулями. Когда спарсити падает вдвое, вы не просто теряете возможность использовать sparse matrix multiplication. Вы получаете:

Рост объема памяти для промежуточных активаций на 30-40%.
Падение IPC (instructions per cycle) из-за отсутствия предсказания ветвлений.
Нагрев. Да, банальный нагрев процессора, потому что он вынужден обрабатывать в два раза больше ненулевых операций.

И самое обидное: все это ради улучшения реконструкции тех самых 10% выбросов, которые влияют на качество модели не так сильно, как кажется. В llama.cpp этот вопрос поднимался еще в PR #5502 (сейчас он уже вмержжен). Разработчики заметили аномальный рост latency при использовании квантованных весов с Turboquant и начали копать в сторону спарсити.

💡

На Mac с MLX эта проблема менее заметна, потому что Metal ядра оптимизированы под плотные матрицы. Но если вы портируете Turboquant на MLX (гайд по портированию), все равно получите просадку в энергоэффективности. Apple Silicon любит спарсити ничуть не меньше Intel.

Как проверить и измерить ущерб самостоятельно

1 Подготовка окружения и моделей

Не верьте статьям на глаз. Возьмите актуальную на 30.03.2026 версию llama.cpp (или другой движок с поддержкой sparse inference). Скачайте Qwen2.5-7B-Instruct в FP16 и его же версию, квантованную с помощью Turboquant. Для чистоты эксперимента используйте последнюю реализацию Turboquant — убедитесь, что там есть rotation матрицы (QJL метод).

# Клонируем и собираем llama.cpp с поддержкой измерений
git clone https://github.com/ggerganov/llama.cpp
cd llama.cpp && make -j

# Скачиваем модель
python3 -m pip install huggingface-hub
huggingface-cli download Qwen/Qwen2.5-7B-Instruct --local-dir ./qwen-7b-fp16

2 Замер спарсити в реальном времени

Модифицируйте код llama.cpp, чтобы он логировал спарсити для каждого слоя. Или используйте готовые инструменты вроде скриптов из разбора реализации Turboquant на Python. Ключевой момент: измеряйте не только итоговое качество (perplexity), но и распределение нулей в активациях после каждого линейного слоя.

# Примерный код для оценки спарсити
import torch
def calculate_sparsity(tensor: torch.Tensor, threshold=1e-6):
    zero_elements = torch.sum(torch.abs(tensor) < threshold).item()
    total_elements = tensor.numel()
    return zero_elements / total_elements * 100

# Загружаем активации после quant/dequant
sparsity_before = calculate_sparsity(activations_fp16)
sparsity_after = calculate_sparsity(activations_quantized)
print(f"Sparsity drop: {sparsity_before:.1f}% -> {sparsity_after:.1f}%")

3 Сравнение с альтернативами

Не останавливайтесь на Turboquant. Прогоните те же тесты для GGUF формата (Q4_K_M), для AWQ, и для нового метода RotorQuant, который в 10-19 раз быстрее Turboquant и не использует rotation матрицы в классическом виде (подробнее о RotorQuant). Обратите внимание на компромисс: где-то выигрываете в скорости, где-то в памяти, а где-то в спарсити.

Важный нюанс 2026 года: многие фреймворки уже интегрировали Turboquant как опцию по умолчанию для квантования KV-кэша. Проверьте настройки вашего инференс-движка. Потеря спарсити в кэше еще больнее бьет по производительности, чем в весах.

Что делать, если вы уже заквантовали все модели через Turboquant

Паника — не вариант. Есть три пути:

Принять и оптимизировать под плотные матрицы. Пересобрать llama.cpp без флагов активации спарсити, использовать BLAS библиотеки, заточенные под dense (OpenBLAS, MKL). Для Mac с MLX Studio это уже сделано (интеграция Turboquant в MLX Studio).
Поиграть с гиперпараметрами rotation. В последних версиях Turboquant появилась возможность регулировать агрессивность rotation матриц. Иногда можно пожертвовать 1% точности, но выиграть 20% спарсити.
Конвертировать обратно в другой формат. Да, это больно, но возможно. Используйте инструменты вроде тестового стенда Turboquant, чтобы вытащить веса, применить обратное вращение и заквантовать в тот же GGUF. Теряете время, но сохраняете железо.

Будущее: rotation матрицы умрут или эволюционируют?

Проблема известна. В Google над этим работают. Уже есть намеки в коммитах, что в Turboquant v2 rotation матрицы будут адаптивными: включаться только для слоев, где выбросы критичны, и отключаться там, где важна спарсити.

Но мой прогноз на 2026-2027 годы: маятник качнется в сторону методов, которые сохраняют спарсити из коробки. Почему? Потому что рост размеров моделей (уже видели Llama 4 1T?) упрется не в память для весов, а в память для активаций и пропускную способность шины. Методы вроде RotorQuant или модификации MXFP4 для MoE-архитектур показывают, что можно квантовать без разрушительного вращения.

Неочевидный совет? Не гонитесь за модным квантованием. Сначала измерьте спарсити вашего пайплайна. Если у вас плотный workflow с большими контекстами, Turboquant может быть оправдан. Но для чат-приложений с короткими промптами на Raspberry Pi 5 — бегите от rotation матриц как от огня. Иногда старый добрый GGUF с его простотой оказывается самым быстрым выбором, даже если в таблицах он проигрывает 0.2 по perplexity. Железо не обманешь.

Подписаться на канал

Разоблачение Turboquant: как rotation матрицы портят спарсити при квантовании LLM