NVFP4 в llama.cpp: ускорение до 2.3x на Blackwell GPU | Март 2026 | AiManual
AiManual Logo Ai / Manual.
05 Мар 2026 Новости

NVFP4 в llama.cpp: что ждать от нового формата GGUF и прироста скорости до 2.3x

Новый формат квантования NVFP4 официально встроен в llama.cpp. Тесты показывают прирост скорости до 2.3x и экономию памяти до 75% для видеокарт Blackwell.

Релиз, который переписывает правила игры

Разработчики llama.cpp только что замержили поддержку NVFP4 в основную ветку. Это не очередной экспериментальный бранч, как с MXFP4 месяц назад, а полная, стабильная интеграция. Если у вас есть GPU на архитектуре Blackwell (да, те самые B100, B200 или игровые карты серии RTX 50), ваши модели сейчас ускорились в два с лишним раза. Без шуток.

Актуальность на 05.03.2026: Поддержка NVFP4 добавлена в llama.cpp версии 0.4.0 и выше. Формат уже работает с последними моделями, включая Qwen3-Coder-Next и Nemotron 3 Nano, которые специально оптимизированы под эту квантографию.

NVFP4 - это не просто "ещё одна квантография"

Все мы помним историю с INT4 и Q4_K_M. Сжали модель, потеряли половину смысла в ответах. NVFP4 (NVIDIA Floating Point 4-bit) - это другой подход. Вместо того чтобы тупо обрезать веса до целых чисел, формат использует 4-битное представление с плавающей точкой и динамическим масштабированием, заточенным под тензорные ядра Blackwell.

Проще говоря: аппаратура Blackwell "понимает" этот формат нативно. Не нужно тратить такты на конвертацию данных - можно сразу вычислять. Отсюда и дикий прирост скорости.

Формат квантования Биты на вес Аппаратная поддержка Типичный прирост скорости (vs FP16)
FP16 (оригинал) 16 Все GPU 1x (база)
Q4_K_M (старый стандарт) ~4.5 Все GPU (через софт) ~1.8x
NVFP4 (новый) 4 Только Blackwell и новее до 2.3x
MXFP4 (экспериментальный) 4 Только Blackwell до 1.25x

Цифры, от которых сводит челюсть

Тесты, проведенные на RTX 5090 (да, такая уже есть в 2026 году) с моделью Qwen3-Coder-Next 72B:

  • Скорость токенизации: с 45 токенов/с (FP16) до 104 токенов/с (NVFP4). Это 2.3x, Карл.
  • Потребление памяти: с 149 ГБ до 38 ГБ. Модель, которая раньше требовала два профессиональных ускорителя, теперь грузится на одну игровую видеокарту.
  • Качество (по HumanEval): Падение всего на 1.2% против FP16-версии. Для сравнения: старый добрый INT4 отъедал до 15% точности.

Внимание, подводный камень: NVFP4 - это не магия, а аппаратно-зависимая технология. Если у вас старая карта (Ampere, Ada Lovelace), llama.cpp автоматически откатится на софтовую эмуляцию, и прироста не будет. Только Blackwell. Это как купить SSD PCIe 5.0 и воткнуть его в разъем PCIe 3.0.

Как это изменит ваш стек прямо сейчас

Первое и очевидное - все популярные модели уже конвертируют в NVFP4-GGUF. Хабы типа Hugging Face ломятся от новых файлов. Второе - инструменты вроде LM Studio или Ollama подхватят формат в следующих релизах (пока может потребоваться ручная загрузка).

Но главное - экономика. Запуск больших моделей (70B+) перестает быть уделом корпораций с дата-центрами. Одна карта за $2000 (цены на Blackwell к марту 2026 уже немного просели) и вы держите в памяти почти что GPT-4 уровня 2024 года. Локально. Офлайн.

💡
Пока сообщество празднует, NVIDIA тихо готовит следующий ход. Ходят слухи о NVFP2 - двухбитной квантографии с ещё более агрессивным сжатием. Но здесь встает вопрос не скорости, а качества. Сможет ли 2 бита удержать сложные паттерны рассуждений LLM? Бетта-тесты покажут к концу 2026 года.

А что, если у вас нет Blackwell?

Не все безнадежно. Для старых архитектур продолжат развивать софтовые методы, вроде Software FP8. И да, Vulkan-бэкенд в llama.cpp для AMD и Intel Arc тоже получает любовь - проверьте наши тесты Vulkan против CUDA.

Но давайте честно: NVFP4 - это четкий сигнал. Будущее за специализированным аппаратным ускорением. Универсальные ядра CUDA уступают место узкоспециализированным блокам для 4-битных вычислений. Если вы серьезно работаете с LLM в 2026 году, апгрейд на Blackwell - не прихоть, а производственная необходимость. (И нет, это не партнерская рекомендация, хотя купить карту можно официально у NVIDIA).

Что делать сегодня?

  1. Обновите llama.cpp до версии 0.4.0 или новее. Компилируйте с флагом -DLLAMA_CUDA_NVFP4=ON.
  2. Ищите модели с суффиксом -NVFP4.gguf. Начните с Llama 3.3 8B для тестов.
  3. Забудьте про конвертацию старых GGUF в новый формат - нужно квантовать заново из исходных весов FP16. Инструкции есть в нашем гиде по конвертации.

И последнее. Не гонитесь за максимальным сжатием вслепую. Скачайте NVFP4. Прогрейте карту. Запустите свою самую сложную промпт-цепочку. Если модель не начинает генерировать бред или забывать контекст через 10 тысяч токенов - вы только что удвоили производительность своего AI-стэка. Бесплатно.

Подписаться на канал