KVarN: квантование KV-кэша 3-5x без потери скорости от Huawei | AiManual
AiManual Logo Ai / Manual.
04 Июн 2026 Инструмент

KVarN от Huawei: KV-кэш сжимается в 3-5 раз, а reasoning не тормозит

Новый метод квантования KV-кэша KVarN от Huawei сжимает данные в 3-5 раз для reasoning-задач, не замедляя инференс. Интеграция с vLLM одной строкой. Apache 2.0.

Реклама
hor_partv1

Почему KV-кэш — это бутылочное горлышко, которое никто не хочет замечать

Каждый, кто запускал большие языковые модели на длинных контекстах, знает эту боль: память заканчивается быстрее, чем терпение. KV-кэш, который хранит ключи и значения для внимания, растёт квадратично от длины контекста. На 128K токенов одна копия Qwen2.5-72B съедает 60 ГБ видеопамяти. И это без учёта весов. Стандартные методы квантования — от простого INT8 до экзотических 2-битных схем — либо режут quality, либо тормозят инференс. Но есть и хорошие новости.

За последние полгода вышло столько новых методов сжатия KV-кэша, что за ними трудно угнаться. Мы уже рассказывали про RotorQuant, который за счёт алгебры Клиффорда обгоняет TurboQuant в 10-19 раз. Потом был TurboQuant от Google, который сжимает KV-кэш в 16 раз, но с заметным замедлением на reasoning-задачах. Теперь в игру входит Huawei со своим KVarN.

Подписаться на канал