llama.cpp MXFP4: ускорение на 25% для NVIDIA Blackwell | Новости AI 2025 | AiManual
AiManual Logo Ai / Manual.
28 Дек 2025 Новости

Новый прорыв в llama.cpp: поддержка MXFP4 и ускорение на 25% для архитектуры Blackwell

Экспериментальная поддержка формата MXFP4 в llama.cpp обещает до 25% ускорения инференса на архитектуре NVIDIA Blackwell. Детали обновления и тесты.

Экспериментальный прорыв: MXFP4 приходит в llama.cpp

В мире локального запуска больших языковых моделей (LLM) каждый процент производительности на счету. Разработчики проекта llama.cpp, одного из самых популярных фреймворков для эффективного инференса, объявили о добавлении экспериментальной поддержки нового формата квантизации — MXFP4. Это обновление нацелено на новейшую архитектуру NVIDIA Blackwell и, согласно первым тестам, может обеспечить прирост скорости до 25% без существенной потери качества модели.

💡
MXFP4 (Microscaling Floating Point 4-bit) — это новый формат квантизации, разработанный NVIDIA для своих GPU архитектуры Blackwell. В отличие от традиционных INT4 методов, MXFP4 использует плавающую точку с микроскейлингом, что позволяет лучше сохранять точность при агрессивном сжатии весов модели.

Что такое MXFP4 и почему это важно?

Квантизация — ключевая техника для запуска огромных LLM на потребительском железе. Она сжимает веса модели (например, с 16 бит до 4), уменьшая требования к памяти и ускоряя вычисления. Однако традиционная 4-битная квантизация (INT4) часто приводит к заметной потере качества ответов модели.

MXFP4 — это ответ NVIDIA на этот вызов. Этот формат, заточенный под аппаратные возможности чипов Blackwell (таких как B100/B200), использует 4-битное представление с плавающей точкой и динамическим масштабированием. Это позволяет более точно представлять распределение весов модели, минимизируя ошибку квантизации. Как отмечается в нашем обзоре фреймворков для локального запуска LLM, борьба за эффективность — главный тренд 2025 года.

Формат квантизации Биты Тип Ключевое преимущество
FP16 16 Плавающая точка Высокая точность (оригинал)
MXFP4 (новый) 4 Плавающая точка с микроскейлингом Скорость Blackwell + сохранение точности
Q4_K_M (llama.cpp) ~4.5 Целочисленная (k-блочная) Хороший баланс скорость/качество
INT4 4 Целочисленная Максимальная скорость, потеря точности

Технические детали и первые результаты

Поддержка MXFP4 в llama.cpp была добавлена через pull request в основную ветку и помечена как экспериментальная. Это означает, что для её использования требуется сборка из исходников с определенными флагами. Функция активируется через новый аргумент командной строки --mxfp4.

# Пример команды для запуска с поддержкой MXFP4 (экспериментально)
./main -m ./models/llama-3.1-8b-instruct.Q4_K_M.gguf \
       --mxfp4 \
       -p "Расскажи о квантовых вычислениях" \
       -n 256

По предварительным данным, опубликованным разработчиками, на тестовых конфигурациях с GPU Blackwell (в эмуляции) удалось достичь:

  • Ускорение инференса на 20-25% по сравнению с Q4_K_M (основной 4-битный формат llama.cpp) на тех же аппаратных ресурсах.
  • Качество модели (измеряемое по бенчмаркам MMLU, Hellaswag) осталось в пределах 1-2% от базового Q4_K_M, что значительно лучше, чем у простого INT4.
  • Эффективное использование новых тензорных ядер NVIDIA Blackwell, предназначенных для работы с 4-битными форматами с плавающей точкой.

Важно: На данный момент функция работает только с GPU архитектуры Blackwell (B100, B200 и аналоги). На картах предыдущих поколений (Ampere, Ada Lovelace) или на других платформах (AMD, Apple Silicon) активация флага --mxfp4 не даст прироста или вызовет ошибку. Для сравнения производительности на разных GPU смотрите наш материал: RTX Pro 6000 vs. RTX 4090 для локальных LLM.

Как это меняет экосистему локального AI?

Внедрение MXFP4 — это не просто очередное обновление, а стратегический шаг, который:

  1. Ускоряет переход на Blackwell. Предоставляет вескую причину для апгрейда всем, кто работает с тяжелыми LLM, демонстрируя реальный прирост «из коробки» в ключевом ПО.
  2. Создает новый стандарт квантизации. MXFP4 может стать предпочтительным форматом для распространения квантизированных моделей, предназначенных для NVIDIA-стека, благодаря лучшему балансу.
  3. Увеличивает доступность больших моделей. Прирост в 25% эффективности означает, что модели, которые вчера работали на пределе возможностей карты, сегодня могут запускаться комфортно, или же можно будет использовать более крупные модели на том же железе. Это напрямую связано с темами стратегий масштабирования локальных LLM.

Что ждать дальше?

Пока поддержка MXFP4 в llama.cpp носит экспериментальный характер. В ближайшие недели и месяцы стоит ожидать:

  • Стабилизации функции и её слияния в основную ветку по умолчанию.
  • Появления первых квантизированных моделей в формате GGUF с использованием MXFP4 в репозиториях вроде Hugging Face.
  • Адаптации этой технологии другими фреймворками, такими как vLLM и TensorRT-LLM.
  • Более широких независимых тестов, которые подтвердят (или скорректируют) заявленные 25% ускорения в реальных рабочих нагрузках.

Для пользователей, которые только начинают погружаться в мир локальных LLM, такие прорывы подчеркивают важность выбора гибкого и быстро развивающегося фреймворка. Чтобы избежать распространенных ошибок при настройке, рекомендуем ознакомиться с нашим практическим гайдом по запуску больших LLM.

Итог: Экспериментальная поддержка MXFP4 в llama.cpp — это значимый шаг вперед в оптимизации инференса LLM под аппаратуру нового поколения. Она обещает сделать мощные языковые модели ещё быстрее и доступнее для владельцев топовых GPU NVIDIA Blackwell, продолжая гонку за эффективность в локальном искусственном интеллекте.