Что такое MXFP4 в llama.cpp?

MXFP4 (Microscaling Floating Point 4-bit) — это новый экспериментальный формат 4-битной квантизации с плавающей точкой, добавленный в llama.cpp. Он разработан NVIDIA для оптимизации работы больших языковых моделей на GPU архитектуры Blackwell и обещает ускорение инференса до 25% с минимальной потерей качества.

На каком оборудовании работает ускорение MXFP4?

Поддержка MXFP4 и заявленное ускорение работают исключительно на GPU архитектуры NVIDIA Blackwell (например, B100, B200). На картах предыдущих поколений (Ampere, Ada Lovelace) или других платформах (AMD, Apple Silicon) эта функция не активируется.

Как использовать MXFP4 в llama.cpp?

Функция экспериментальная и требует сборки llama.cpp из исходного кода с определенными флагами. Для запуска модели с её использованием нужно добавить аргумент командной строки: --mxfp4. Пример: ./main -m model.gguf --mxfp4 -p "Ваш промпт".

llama.cpp MXFP4: ускорение на 25% для NVIDIA Blackwell | Новости AI 2025

Экспериментальный прорыв: MXFP4 приходит в llama.cpp

В мире локального запуска больших языковых моделей (LLM) каждый процент производительности на счету. Разработчики проекта llama.cpp, одного из самых популярных фреймворков для эффективного инференса, объявили о добавлении экспериментальной поддержки нового формата квантизации — MXFP4. Это обновление нацелено на новейшую архитектуру NVIDIA Blackwell и, согласно первым тестам, может обеспечить прирост скорости до 25% без существенной потери качества модели.

💡

MXFP4 (Microscaling Floating Point 4-bit) — это новый формат квантизации, разработанный NVIDIA для своих GPU архитектуры Blackwell. В отличие от традиционных INT4 методов, MXFP4 использует плавающую точку с микроскейлингом, что позволяет лучше сохранять точность при агрессивном сжатии весов модели.

Что такое MXFP4 и почему это важно?

Квантизация — ключевая техника для запуска огромных LLM на потребительском железе. Она сжимает веса модели (например, с 16 бит до 4), уменьшая требования к памяти и ускоряя вычисления. Однако традиционная 4-битная квантизация (INT4) часто приводит к заметной потере качества ответов модели.

MXFP4 — это ответ NVIDIA на этот вызов. Этот формат, заточенный под аппаратные возможности чипов Blackwell (таких как B100/B200), использует 4-битное представление с плавающей точкой и динамическим масштабированием. Это позволяет более точно представлять распределение весов модели, минимизируя ошибку квантизации. Как отмечается в нашем обзоре фреймворков для локального запуска LLM, борьба за эффективность — главный тренд 2025 года.

Формат квантизации	Биты	Тип	Ключевое преимущество
FP16	16	Плавающая точка	Высокая точность (оригинал)
MXFP4 (новый)	4	Плавающая точка с микроскейлингом	Скорость Blackwell + сохранение точности
Q4_K_M (llama.cpp)	~4.5	Целочисленная (k-блочная)	Хороший баланс скорость/качество
INT4	4	Целочисленная	Максимальная скорость, потеря точности

Технические детали и первые результаты

Поддержка MXFP4 в llama.cpp была добавлена через pull request в основную ветку и помечена как экспериментальная. Это означает, что для её использования требуется сборка из исходников с определенными флагами. Функция активируется через новый аргумент командной строки --mxfp4.

# Пример команды для запуска с поддержкой MXFP4 (экспериментально)
./main -m ./models/llama-3.1-8b-instruct.Q4_K_M.gguf \
       --mxfp4 \
       -p "Расскажи о квантовых вычислениях" \
       -n 256

По предварительным данным, опубликованным разработчиками, на тестовых конфигурациях с GPU Blackwell (в эмуляции) удалось достичь:

Ускорение инференса на 20-25% по сравнению с Q4_K_M (основной 4-битный формат llama.cpp) на тех же аппаратных ресурсах.
Качество модели (измеряемое по бенчмаркам MMLU, Hellaswag) осталось в пределах 1-2% от базового Q4_K_M, что значительно лучше, чем у простого INT4.
Эффективное использование новых тензорных ядер NVIDIA Blackwell, предназначенных для работы с 4-битными форматами с плавающей точкой.

Важно: На данный момент функция работает только с GPU архитектуры Blackwell (B100, B200 и аналоги). На картах предыдущих поколений (Ampere, Ada Lovelace) или на других платформах (AMD, Apple Silicon) активация флага --mxfp4 не даст прироста или вызовет ошибку. Для сравнения производительности на разных GPU смотрите наш материал: RTX Pro 6000 vs. RTX 4090 для локальных LLM.

Как это меняет экосистему локального AI?

Внедрение MXFP4 — это не просто очередное обновление, а стратегический шаг, который:

Ускоряет переход на Blackwell. Предоставляет вескую причину для апгрейда всем, кто работает с тяжелыми LLM, демонстрируя реальный прирост «из коробки» в ключевом ПО.
Создает новый стандарт квантизации. MXFP4 может стать предпочтительным форматом для распространения квантизированных моделей, предназначенных для NVIDIA-стека, благодаря лучшему балансу.
Увеличивает доступность больших моделей. Прирост в 25% эффективности означает, что модели, которые вчера работали на пределе возможностей карты, сегодня могут запускаться комфортно, или же можно будет использовать более крупные модели на том же железе. Это напрямую связано с темами стратегий масштабирования локальных LLM.

Что ждать дальше?

Пока поддержка MXFP4 в llama.cpp носит экспериментальный характер. В ближайшие недели и месяцы стоит ожидать:

Стабилизации функции и её слияния в основную ветку по умолчанию.
Появления первых квантизированных моделей в формате GGUF с использованием MXFP4 в репозиториях вроде Hugging Face.
Адаптации этой технологии другими фреймворками, такими как vLLM и TensorRT-LLM.
Более широких независимых тестов, которые подтвердят (или скорректируют) заявленные 25% ускорения в реальных рабочих нагрузках.

Для пользователей, которые только начинают погружаться в мир локальных LLM, такие прорывы подчеркивают важность выбора гибкого и быстро развивающегося фреймворка. Чтобы избежать распространенных ошибок при настройке, рекомендуем ознакомиться с нашим практическим гайдом по запуску больших LLM.

Итог: Экспериментальная поддержка MXFP4 в llama.cpp — это значимый шаг вперед в оптимизации инференса LLM под аппаратуру нового поколения. Она обещает сделать мощные языковые модели ещё быстрее и доступнее для владельцев топовых GPU NVIDIA Blackwell, продолжая гонку за эффективность в локальном искусственном интеллекте.

Новый прорыв в llama.cpp: поддержка MXFP4 и ускорение на 25% для архитектуры Blackwell

Экспериментальный прорыв: MXFP4 приходит в llama.cpp

Что такое MXFP4 и почему это важно?

Технические детали и первые результаты

Как это меняет экосистему локального AI?

Что ждать дальше?

Подписывайтесь на наш канал!