Зачем Mistral пошел на сделку с архитектурой NVIDIA

Когда в марте 2026 года Mistral выкатил Mistral-Small-4-119B в специфическом формате NVFP4, многие просто пожали плечами. Еще одна квантованная модель, подумаешь. Но здесь скрывался более хитрая игра. Французы не просто сжали своего 119-миллиардного «малыша». Они оптимизировали его под микроархитектуру NVIDIA Blackwell, которая к этому моменту уже стала стандартом для новых RTX 5090 и серверных ускорителей.

NVFP4 — это не просто формат хранения весов. Это низкоуровневый формат квантования, который напрямую заточен под тензорные ядра Blackwell. В результате, модель не только занимает меньше места (около 45 ГБ против ~220 ГБ в FP16), но и вычисляется в разы быстрее на «родном» железе.

NVFP4 против всех: холодная война форматов

До появления NVFP4 царствовал INT4. Простой, понятный, но не идеальный для задач, где важна точность. Новый формат от NVIDIA использует 4-битное представление с плавающей точкой (FP). Звучит как оксюморон? Зато работает. Если грубо, то NVFP4 сохраняет больше информации о диапазоне значений, чем целочисленный INT4, что критично для сложных генеративных задач.

Формат	Точность	Оптимизация	Практический выигрыш
NVFP4	4-bit Floating Point	NVIDIA Blackwell (RTX 5090, B100, GB200)	Скорость выше в ~1.8x vs INT4, меньше падение качества
INT4	4-bit Integer	Универсальная (старые GPU)	Хорошее сжатие, но заметная потеря на сложных промптах
MXFP4 (новинка 2025)	4-bit Mini Floating Point	Разные аппаратные ускорители	Баланс между скоростью и переносимостью

Если хотите глубже в детали, посмотрите наш разбор NVFP4 против INT4. Там все разложено по полочкам. А Mistral, выпуская модель сразу в NVFP4, по сути, делает ставку на экосистему NVIDIA. Умно? Безусловно. Немного предсказуемо? Да.

Как заставить эту штуку работать: три рабочих пути

Теория — это хорошо, но модель нужна для дела. Вот как ее запустить, если у вас есть совместимая видеокарта (читай: Blackwell или новее).

1Через llama.cpp (для локальных энтузиастов)

Самый народный способ. Убедитесь, что у вас llama.cpp версии не старше марта 2026 года. Поддержка NVFP4 добавилась относительно недавно.

git clone https://github.com/ggerganov/llama.cpp
cd llama.cpp
make -j
./main -m mistral-small-4-119b-nvfp4.Q4_0.gguf -p "Ваш промпт" -n 512

Если сборка падает с ошибкой — обновите код. Команда ggerganov постоянно вносит правки. Детали по настройке есть в нашей статье про поддержку NVFP4 в llama.cpp.

2Через vLLM (для продакшена и API)

Если нужна максимальная скорость и батчинг. У vLLM с середины 2025 года есть нативный бэкенд для NVFP4. Но есть нюанс с MoE-слоями.

pip install vllm==0.6.0  # или новее
from vllm import LLM
llm = LLM(model="mistral-small-4-119b-nvfp4", quantization="nvfp4", gpu_memory_utilization=0.9)

Если столкнетесь с ошибками ядер, может помочь флаг --moe-backend marlin. Об этом мы писали в руководстве по запуску NVFP4 MoE на Blackwell.

💡

Модель в формате NVFP4 можно скачать напрямую с Hugging Face, но не все GUI-оболочки (тип LM Studio) сразу ее увидели. Если столкнетесь с проблемой, поможет метод из статьи про ручную загрузку через Hugging Face.

3Через AdaLLM (для кастомных оптимизаций)

Экспериментальный фреймворк, который позволяет выжимать из NVFP4 на старых картах (например, RTX 4090) максимум, используя FP8 для KV-кэша. Для настоящих гиков, которые не боятся собирать кастомные ядра. Наше полное руководство по AdaLLM вас выручит.

Кому действительно нужен Mistral-Small-4-119B-NVFP4?

А теперь жесткая правда. Эта модель — не для всех.

Вам стоит смотреть в ее сторону, если: у вас свежий GPU NVIDIA Blackwell (RTX 5090, Pro 6000, B100), вы занимаетесь локальным запуском тяжелых LLM для исследований или разработки, и скорость инференса для вас критична. Вы получите почти качество полноразмерной модели, но с памятью под 50 ГБ и скоростью, близкой к мелким моделям.
Даже не думайте скачивать, если: у вас карта AMD или NVIDIA старше Ada Lovelace (например, RTX 3000 серии). Драйвера и ядра просто не будут знать, что делать с NVFP4. Вы потратите время на поиск костылей. Лучше возьмите обычную GGUF-квантованную версию в INT4.

Mistral-Small-4-119B сам по себе — интересный зверь. Это не классическая плотная архитектура, а MoE (Mixture of Experts) модель. Она активирует только часть параметров для каждого токена, что и позволяет 119-миллиардной модели работать относительно быстро. Более подробный разбор архитектуры есть в материале про Mistral Small 4.

Не путайте NVFP4 с MXFP4! Это разные форматы, хоть и оба 4-битные. MXFP4 — более универсальный, его поддерживают разные аппаратные платформы. NVFP4 — эксклюзив для NVIDIA нового поколения. О новом прорыве в llama.cpp, связанном с MXFP4, мы уже писали.

Итог: стратегия Mistral оказалась простой и эффективной

Выпуская модель в проприетарном формате NVFP4, Mistral убивает двух зайцев. Во-первых, обеспечивает лучшую производительность для пользователей самой мощной на 2026 год аппаратной платформы. Во-вторых, укрепляет альянс с NVIDIA, что в долгосрочной перспективе может открыть доступ к более ранним и глубоким оптимизациям.

Для сообщества это сигнал: будущее высокопроизводительного локального AI все больше завязывается на специфические форматы данных и закрытые экосистемы. Универсальные INT4 и FP16 постепенно уходят в нишу энтузиастов со старым железом.

Так что, если ваш GPU уже шепчет слово "Blackwell", смело качайте Mistral-Small-4-119B-NVFP4. Если нет — присмотритесь к более универсальным квантованиям или ждите, пока ваша карта не станет музейным экспонатом. Цикл обновлений ускоряется.

Подписаться на канал

Mistral-Small-4-119B-NVFP4: Зачем французы затачивают ИИ под чипы NVIDIA и как это использовать