Почему KV-кэш — это бутылочное горлышко, которое никто не хочет замечать

Каждый, кто запускал большие языковые модели на длинных контекстах, знает эту боль: память заканчивается быстрее, чем терпение. KV-кэш, который хранит ключи и значения для внимания, растёт квадратично от длины контекста. На 128K токенов одна копия Qwen2.5-72B съедает 60 ГБ видеопамяти. И это без учёта весов. Стандартные методы квантования — от простого INT8 до экзотических 2-битных схем — либо режут quality, либо тормозят инференс. Но есть и хорошие новости.

За последние полгода вышло столько новых методов сжатия KV-кэша, что за ними трудно угнаться. Мы уже рассказывали про RotorQuant, который за счёт алгебры Клиффорда обгоняет TurboQuant в 10-19 раз. Потом был TurboQuant от Google, который сжимает KV-кэш в 16 раз, но с заметным замедлением на reasoning-задачах. Теперь в игру входит Huawei со своим KVarN.

Подписаться на канал

KVarN от Huawei: KV-кэш сжимается в 3-5 раз, а reasoning не тормозит

Почему KV-кэш — это бутылочное горлышко, которое никто не хочет замечать

Подписывайтесь на наш канал!