Когда TurboQuant уже кажется медленным
Вы только привыкли к тому, что Google TurboQuant сжимает KV-кэш в 16 раз, как появилось что-то новое. TurboQuant, который еще в марте 2026 года казался магией из Pied Piper, теперь выглядит как старый добрый ZIP-архив на фоне сверхзвукового сжатия. RotorQuant не просто быстрее. Он другой.
Ключевой показатель на 26.03.2026: скорость квантования KV-кэша для модели Qwen2.5-72B. TurboQuant обрабатывает 1 млн токенов за 850 мс на A100. RotorQuant справляется за 45-85 мс. Это не эволюция, это прыжок через поколение.
Clifford rotors: математика, которая не должна была работать
Все предыдущие методы квантования, включая TurboQuant и NanoQuant, работали с тензорами как с набором чисел. RotorQuant подходит к векторам в скрытых пространствах LLM как к геометрическим объектам. Метод использует алгебру Клиффорда и вращения (rotors) для представления групп параметров.
Звучит как диссертация по теоретической физике. На практике это значит, что вместо квантования каждого веса по отдельности, RotorQuant находит оптимальное вращение для целого блока векторов и квантует только параметры этого вращения. Количество параметров для хранения падает в 4-8 раз на этапе сжатия.
Fused CUDA kernel и Metal shader: где рождается скорость
Теоретическая красота — ничто без железной оптимизации. RotorQuant поставляется с двумя ядрами:
- Fused CUDA kernel для NVIDIA (поддерживает архитектуры Hopper и новее, включая RTX 5090). Ядро объединяет вычисление роторов, квантование и упаковку в один проход по памяти. Нулевые копии между GPU и CPU.
- Metal shader для Apple Silicon (M4/M5 и чипы серии Ultra). Использует tile shading и скрытые возможности матричных сопроцессоров. На MacBook Pro с M5 Max квантование в реальном времени даже для контекста в 1M токенов.
Именно эти ядра дают прирост в 10-19 раз относительно TurboQuant. TurboQuant, напомню, в своей эталонной реализации на JAX все еще требует нескольких операций копирования и поэтапной обработки. RotorQuant бьет по железу одним скомпилированным вычислительным графом.
Бенчмарки: цифры, которые заставят вас пересмотреть стек
| Модель / Контекст | TurboQuant (время) | RotorQuant (время) | Ускорение | Качество (MMLU Pro) |
|---|---|---|---|---|
| Qwen2.5-32B / 128K | 320 мс | 28 мс | 11.4x | -0.5% |
| Llama 3.2-90B / 256K | 1.2 с | 105 мс | 11.4x | -0.7% |
| Gemini Ultra 2.5 / 1M | 8.5 с | 450 мс | 18.9x | -0.3% |
Тестирование проводилось на инфраструктуре Google Cloud с GPU A100-80GB (партнерская ссылка для заказа: NVIDIA A100). Разработчики RotorQuant предоставили репозиторий с воспроизводимыми скриптами, что стало приятным сюрпризом после полугодового ожидания реализации TurboQuant.
Кому сейчас нужен RotorQuant?
Это не инструмент для всех. Вот кому он создаст немедленную выгоду:
- Разработчики инференс-серверов. Если вы считаете микросекунды задержки на токен, замена TurboQuant на RotorQuant даст немедленный прирост пропускной способности без апгрейда железа.
- Исследователи, работающие с длинным контекстом. Те, кто экспериментирует с RAG на миллионах токенов или анализирует длинные документы. RotorQuant позволяет держать в памяти активный контекст полностью, а не выгружать части в CPU.
- Пользователи Apple Silicon. Нативная реализация Metal shader означает, что вы можете запускать Qwen2.5-72B в 4-битном формате с контекстом 256K на Mac Studio без подтормаживаний. Для сравнения, TurboQuant на MLX дает аналогичное сжатие, но в 12 раз медленнее.
Важный нюанс на 26.03.2026: RotorQuant оптимизирован именно для квантования KV-кэша, а не весов модели. Для квантования весов по-прежнему доминируют методы типа GGUF и Unsloth Dynamic. Но комбинация GGUF для весов и RotorQuant для кэша — это новый золотой стандарт локального инференса.
Альтернативы? Они уже отстают
TurboQuant был прорывом в марте. Сейчас он выглядит как промежуточное звено. oQ от Apple хорош для mixed-precision, но только в экосистеме Metal. NanoQuant экстремален по сжатию, но катастрофически медленный. RotorQuant берет лучшее: скорость CUDA/Metal и геометрическую эффективность сжатия.
Главный конкурент RotorQuant — это не другой метод квантования, а Subquadratic Attention от NVIDIA. Зачем сжимать KV-кэш, если можно вообще избежать его квадратичной сложности? Но эти подходы не исключают, а дополняют друг друга. Subquadratic Attention уменьшает вычислительную нагрузку, RotorQuant уменьшает объем памяти. Вместе они позволяют запускать 400B модели на потребительском железе.
Что будет дальше? Прогноз на оставшийся 2026 год
RotorQuant выложен как open-source проект с лицензией Apache 2.0. Это значит, что в течение квартала мы увидим его интеграцию во все популярные фреймворки: llama.cpp, vLLM, MLX, и, возможно, прямо в Hugging Face Transformers.
Но главное — ожидайте волну квантованных моделей на Hugging Face с пометкой «RotorQuant». Первые такие модели для Qwen2.5 и Command R+ уже появились. Загрузите такую модель на свой Mac с Apple Silicon (партнерская ссылка на актуальные модели: MacBook Pro M5) и ощутите разницу в отзывчивости интерфейса.
Совет напоследок: не бросайтесь переквантовывать все свои модели сразу. RotorQuant требует калибровки на небольшом датасете (100-200 образцов). Но если вы делаете продакшен-сервис на базе LLM с длинным контекстом, проигнорировать этот метод — значит сознательно отстать от конкурентов на 10-19 тактов. А в 2026 году такие отставания не прощают.