Зачем Mistral пошел на сделку с архитектурой NVIDIA
Когда в марте 2026 года Mistral выкатил Mistral-Small-4-119B в специфическом формате NVFP4, многие просто пожали плечами. Еще одна квантованная модель, подумаешь. Но здесь скрывался более хитрая игра. Французы не просто сжали своего 119-миллиардного «малыша». Они оптимизировали его под микроархитектуру NVIDIA Blackwell, которая к этому моменту уже стала стандартом для новых RTX 5090 и серверных ускорителей.
NVFP4 — это не просто формат хранения весов. Это низкоуровневый формат квантования, который напрямую заточен под тензорные ядра Blackwell. В результате, модель не только занимает меньше места (около 45 ГБ против ~220 ГБ в FP16), но и вычисляется в разы быстрее на «родном» железе.
NVFP4 против всех: холодная война форматов
До появления NVFP4 царствовал INT4. Простой, понятный, но не идеальный для задач, где важна точность. Новый формат от NVIDIA использует 4-битное представление с плавающей точкой (FP). Звучит как оксюморон? Зато работает. Если грубо, то NVFP4 сохраняет больше информации о диапазоне значений, чем целочисленный INT4, что критично для сложных генеративных задач.
| Формат | Точность | Оптимизация | Практический выигрыш |
|---|---|---|---|
| NVFP4 | 4-bit Floating Point | NVIDIA Blackwell (RTX 5090, B100, GB200) | Скорость выше в ~1.8x vs INT4, меньше падение качества |
| INT4 | 4-bit Integer | Универсальная (старые GPU) | Хорошее сжатие, но заметная потеря на сложных промптах |
| MXFP4 (новинка 2025) | 4-bit Mini Floating Point | Разные аппаратные ускорители | Баланс между скоростью и переносимостью |
Если хотите глубже в детали, посмотрите наш разбор NVFP4 против INT4. Там все разложено по полочкам. А Mistral, выпуская модель сразу в NVFP4, по сути, делает ставку на экосистему NVIDIA. Умно? Безусловно. Немного предсказуемо? Да.
Как заставить эту штуку работать: три рабочих пути
Теория — это хорошо, но модель нужна для дела. Вот как ее запустить, если у вас есть совместимая видеокарта (читай: Blackwell или новее).
1Через llama.cpp (для локальных энтузиастов)
Самый народный способ. Убедитесь, что у вас llama.cpp версии не старше марта 2026 года. Поддержка NVFP4 добавилась относительно недавно.
git clone https://github.com/ggerganov/llama.cpp
cd llama.cpp
make -j
./main -m mistral-small-4-119b-nvfp4.Q4_0.gguf -p "Ваш промпт" -n 512Если сборка падает с ошибкой — обновите код. Команда ggerganov постоянно вносит правки. Детали по настройке есть в нашей статье про поддержку NVFP4 в llama.cpp.
2Через vLLM (для продакшена и API)
Если нужна максимальная скорость и батчинг. У vLLM с середины 2025 года есть нативный бэкенд для NVFP4. Но есть нюанс с MoE-слоями.
pip install vllm==0.6.0 # или новее
from vllm import LLM
llm = LLM(model="mistral-small-4-119b-nvfp4", quantization="nvfp4", gpu_memory_utilization=0.9)Если столкнетесь с ошибками ядер, может помочь флаг --moe-backend marlin. Об этом мы писали в руководстве по запуску NVFP4 MoE на Blackwell.
3Через AdaLLM (для кастомных оптимизаций)
Экспериментальный фреймворк, который позволяет выжимать из NVFP4 на старых картах (например, RTX 4090) максимум, используя FP8 для KV-кэша. Для настоящих гиков, которые не боятся собирать кастомные ядра. Наше полное руководство по AdaLLM вас выручит.
Кому действительно нужен Mistral-Small-4-119B-NVFP4?
А теперь жесткая правда. Эта модель — не для всех.
- Вам стоит смотреть в ее сторону, если: у вас свежий GPU NVIDIA Blackwell (RTX 5090, Pro 6000, B100), вы занимаетесь локальным запуском тяжелых LLM для исследований или разработки, и скорость инференса для вас критична. Вы получите почти качество полноразмерной модели, но с памятью под 50 ГБ и скоростью, близкой к мелким моделям.
- Даже не думайте скачивать, если: у вас карта AMD или NVIDIA старше Ada Lovelace (например, RTX 3000 серии). Драйвера и ядра просто не будут знать, что делать с NVFP4. Вы потратите время на поиск костылей. Лучше возьмите обычную GGUF-квантованную версию в INT4.
Mistral-Small-4-119B сам по себе — интересный зверь. Это не классическая плотная архитектура, а MoE (Mixture of Experts) модель. Она активирует только часть параметров для каждого токена, что и позволяет 119-миллиардной модели работать относительно быстро. Более подробный разбор архитектуры есть в материале про Mistral Small 4.
Не путайте NVFP4 с MXFP4! Это разные форматы, хоть и оба 4-битные. MXFP4 — более универсальный, его поддерживают разные аппаратные платформы. NVFP4 — эксклюзив для NVIDIA нового поколения. О новом прорыве в llama.cpp, связанном с MXFP4, мы уже писали.
Итог: стратегия Mistral оказалась простой и эффективной
Выпуская модель в проприетарном формате NVFP4, Mistral убивает двух зайцев. Во-первых, обеспечивает лучшую производительность для пользователей самой мощной на 2026 год аппаратной платформы. Во-вторых, укрепляет альянс с NVIDIA, что в долгосрочной перспективе может открыть доступ к более ранним и глубоким оптимизациям.
Для сообщества это сигнал: будущее высокопроизводительного локального AI все больше завязывается на специфические форматы данных и закрытые экосистемы. Универсальные INT4 и FP16 постепенно уходят в нишу энтузиастов со старым железом.
Так что, если ваш GPU уже шепчет слово "Blackwell", смело качайте Mistral-Small-4-119B-NVFP4. Если нет — присмотритесь к более универсальным квантованиям или ждите, пока ваша карта не станет музейным экспонатом. Цикл обновлений ускоряется.