NVFP4 KV Cache Quantization для 32GB VRAM: новый прорыв | AiManual
AiManual Logo Ai / Manual.
18 Июн 2026 Новости

NVFP4 KV Cache Quantization: 32GB VRAM теперь хватает для Qwen-27B с полным контекстом

NVFP4 квантование KV кэша на sm120 позволяет запускать Qwen-27B на 32GB VRAM. Как это меняет правила игры для локальных LLM?

Реклама
partv2

У вас есть 32 гигабайта видеопамяти. Вы купили RTX 5090, или, может, подержанную RTX 4090 с мыслью "хватит для всего". А потом попытались запустить Qwen-27B — и поняли: 32 ГБ — это насмешка. Веса модели влезают, но KV-кэш на 32К токенов съедает ещё 20+ ГБ, и генерация ломается на середине. До июня 2026 года это было проклятием всех, кто не мог позволить себе 48-гигабайтные карты. Теперь появился NVFP4 для KV-кэша.

Подписаться на канал