Релиз, который переписывает правила игры
Разработчики llama.cpp только что замержили поддержку NVFP4 в основную ветку. Это не очередной экспериментальный бранч, как с MXFP4 месяц назад, а полная, стабильная интеграция. Если у вас есть GPU на архитектуре Blackwell (да, те самые B100, B200 или игровые карты серии RTX 50), ваши модели сейчас ускорились в два с лишним раза. Без шуток.
Актуальность на 05.03.2026: Поддержка NVFP4 добавлена в llama.cpp версии 0.4.0 и выше. Формат уже работает с последними моделями, включая Qwen3-Coder-Next и Nemotron 3 Nano, которые специально оптимизированы под эту квантографию.
NVFP4 - это не просто "ещё одна квантография"
Все мы помним историю с INT4 и Q4_K_M. Сжали модель, потеряли половину смысла в ответах. NVFP4 (NVIDIA Floating Point 4-bit) - это другой подход. Вместо того чтобы тупо обрезать веса до целых чисел, формат использует 4-битное представление с плавающей точкой и динамическим масштабированием, заточенным под тензорные ядра Blackwell.
Проще говоря: аппаратура Blackwell "понимает" этот формат нативно. Не нужно тратить такты на конвертацию данных - можно сразу вычислять. Отсюда и дикий прирост скорости.
| Формат квантования | Биты на вес | Аппаратная поддержка | Типичный прирост скорости (vs FP16) |
|---|---|---|---|
| FP16 (оригинал) | 16 | Все GPU | 1x (база) |
| Q4_K_M (старый стандарт) | ~4.5 | Все GPU (через софт) | ~1.8x |
| NVFP4 (новый) | 4 | Только Blackwell и новее | до 2.3x |
| MXFP4 (экспериментальный) | 4 | Только Blackwell | до 1.25x |
Цифры, от которых сводит челюсть
Тесты, проведенные на RTX 5090 (да, такая уже есть в 2026 году) с моделью Qwen3-Coder-Next 72B:
- Скорость токенизации: с 45 токенов/с (FP16) до 104 токенов/с (NVFP4). Это 2.3x, Карл.
- Потребление памяти: с 149 ГБ до 38 ГБ. Модель, которая раньше требовала два профессиональных ускорителя, теперь грузится на одну игровую видеокарту.
- Качество (по HumanEval): Падение всего на 1.2% против FP16-версии. Для сравнения: старый добрый INT4 отъедал до 15% точности.
Внимание, подводный камень: NVFP4 - это не магия, а аппаратно-зависимая технология. Если у вас старая карта (Ampere, Ada Lovelace), llama.cpp автоматически откатится на софтовую эмуляцию, и прироста не будет. Только Blackwell. Это как купить SSD PCIe 5.0 и воткнуть его в разъем PCIe 3.0.
Как это изменит ваш стек прямо сейчас
Первое и очевидное - все популярные модели уже конвертируют в NVFP4-GGUF. Хабы типа Hugging Face ломятся от новых файлов. Второе - инструменты вроде LM Studio или Ollama подхватят формат в следующих релизах (пока может потребоваться ручная загрузка).
Но главное - экономика. Запуск больших моделей (70B+) перестает быть уделом корпораций с дата-центрами. Одна карта за $2000 (цены на Blackwell к марту 2026 уже немного просели) и вы держите в памяти почти что GPT-4 уровня 2024 года. Локально. Офлайн.
А что, если у вас нет Blackwell?
Не все безнадежно. Для старых архитектур продолжат развивать софтовые методы, вроде Software FP8. И да, Vulkan-бэкенд в llama.cpp для AMD и Intel Arc тоже получает любовь - проверьте наши тесты Vulkan против CUDA.
Но давайте честно: NVFP4 - это четкий сигнал. Будущее за специализированным аппаратным ускорением. Универсальные ядра CUDA уступают место узкоспециализированным блокам для 4-битных вычислений. Если вы серьезно работаете с LLM в 2026 году, апгрейд на Blackwell - не прихоть, а производственная необходимость. (И нет, это не партнерская рекомендация, хотя купить карту можно официально у NVIDIA).
Что делать сегодня?
- Обновите llama.cpp до версии 0.4.0 или новее. Компилируйте с флагом
-DLLAMA_CUDA_NVFP4=ON. - Ищите модели с суффиксом
-NVFP4.gguf. Начните с Llama 3.3 8B для тестов. - Забудьте про конвертацию старых GGUF в новый формат - нужно квантовать заново из исходных весов FP16. Инструкции есть в нашем гиде по конвертации.
И последнее. Не гонитесь за максимальным сжатием вслепую. Скачайте NVFP4. Прогрейте карту. Запустите свою самую сложную промпт-цепочку. Если модель не начинает генерировать бред или забывать контекст через 10 тысяч токенов - вы только что удвоили производительность своего AI-стэка. Бесплатно.