Французы снова удивили. Mistral Small 4 — это не просто модель, а вызов всему рынку open-source LLM. 119 миллиардов параметров, из которых активны только 20. 128 экспертов в MoE-слое, но для каждого токена работают лишь двое. И всё это под лицензией Apache 2.0. Без цензуры, без скрытых ограничений, с полной мультимодальностью и режимом рассуждений.
В этой статье разберем, чем Small 4 отличается от конкурентов, как его запустить и кому он реально нужен. Если вы еще не читали наш обзор архитектуры — вот ссылка. Там подробно расписана философия 128 экспертов и топ-2 активации.
Ключевая фишка: Mistral Small 4 — первая открытая модель такого размера, которая объединяет reasoning (цепочку мыслей с внутренними токенами) и мультимодальность (текст, изображения, таблицы, код) в одном весе. Никаких отдельных версий — всё в одной чекпоинте.
Что под капотом: MoE без компромиссов
Архитектура — не классический плотный трансформер, а Mixture of Experts с 128 экспертами. В каждый момент времени для обработки токена активируются только 2 эксперта. Остальные 126 молчат — экономят память и флопсы. Итог: на инференсе модель ведет себя как плотная 20B, хотя владеет знаниями 119B.
Это не первая MoE-модель, но среди open-source аналогов Small 4 выделяется тремя вещами:
- Качество экспертов. Каждый эксперт — не маленький MLP, а полноценная нейросеть с 61 слоем. Благодаря этому даже два активных эксперта дают глубину, сопоставимую с плотной моделью в 70B.
- Сбалансированная загрузка. Маршрутизатор использует auxiliary loss и не позволяет двум-трем экспертам "захватить" все токены. Это то, о чем мы писали в руководстве по MoE — без балансировки модель деградирует.
- Новое позиционное кодирование. Mistral заменили RoPE на собственную схему, которая не сходит с ума на контексте в 256k токенов. Никаких потерь внимания на длинных дистанциях.
HyperNova-60B шла по похожему пути, но уступает Small 4 по мультимодальности и качеству reasoning. HyperNova — чисто текстовая модель без зрения. Mistral Small 4 видит картинки.
Reasoning mode: как модель думает вслух
В 2025 году reasoning-модели (o1, o3, Claude 4.5 Opus) стали стандартом. Mistral Small 4 включает так называемый "режим рассуждений" (reasoning mode). В этом режиме перед ответом модель генерирует внутреннюю цепочку мыслей, заключенную в специальные теги <think>...</think>. Пользователь может видеть ход рассуждений (или скрыть — опционально).
Мы уже разбирали Society of Thought — там совет экспертов внутри модели. У Mistral Small 4 похожий механизм: маршрутизатор отправляет reasoning-токены на экспертов, специализирующихся на логике. Это повышает качество на задачах MATH, GSM8K, HumanEval.
При этом Small 4 не требует специального форматирования для включения reasoning. Можно просто попросить "думать пошагово" — модель сама переключится. В итогах 2025 года мы отмечали, что такой гибридный подход станет мейнстримом. Mistral Small 4 — подтверждение тренда.
Мультимодальность: видит, но не всегда понимает
В отличие от многих open-source моделей, Small 4 может обрабатывать изображения. Модель обучена на парах "картинка-текст" и способна описывать фото, таблицы, диаграммы, рукописные заметки. Мы провели отдельное тестирование мультимодальности — результаты неоднозначные.
Плюсы:
- Хорошо извлекает текст из картинок (OCR) — почти на уровне Qwen-VL 2.5.
- Справляется с таблицами и графиками (понимает структуру, оси координат).
- Поддерживает несколько изображений в одном промпте.
Минусы:
- Плохо с абстрактными концепциями ("напиши, какое настроение у этого пейзажа").
- Не может рисовать или генерировать картинки — только анализировать.
- При большом количестве объектов на изображении начинает галлюцинировать.
Тем не менее для задач документооборота, анализа графиков и OCR — более чем достаточно. А учитывая лицензию Apache 2.0, можно дообучать под специфические визуальные домены. Готовые промпты для тестирования зрения помогут быстро оценить качество.
Сравнение с альтернативами (апрель 2026)
| Модель | Параметры (активные) | MoE | Мультимодальность | Reasoning | Лицензия |
|---|---|---|---|---|---|
| Mistral Small 4 | 119B (20B) | 128 экспертов | Да (текст+изображения) | Встроенный | Apache 2.0 |
| DeepSeek-V3 | 671B (37B) | 256 экспертов | Только текст | Отдельная версия | MIT (ограничена) |
| HyperNova-60B | 60B (36B) | Нет (плотная) | Только текст | Дообучение | Apache 2.0 |
| Qwen2.5-MoE | 72B (16B) | 16 экспертов | Да (VL версия) | Нет | Apache 2.0 |
Как видно, прямой конкурент с похожими характеристиками (open-source, MoE, мультимодальность, reasoning) — по сути, только Mistral Small 4. DeepSeek-V3 больше и мощнее, но не опенсорсный полностью (ограничения по коммерции). HyperNova-60B — плотная модель, хороша для кода, но не мультимодальна. Qwen2.5-MoE — только текст в базе, мультимодальность отдельно.
Важный нюанс: Small 4 требует минимум 40 ГБ VRAM для инференса в FP16. С квантизацией AWQ/GPTQ можно уложиться в 24 ГБ. Для локального запуска на одной карте (например, RTX 4090) понадобится 4-bit квантование. Скачать веса можно на Hugging Face.
Примеры использования: от кода до агентов
Уникальная особенность Mistral Small 4 — способность одновременно выполнять reasoning, читать изображения и генерировать код. Это делает ее идеальной для агентных систем.
1 Анализ финансового графика и написание отчета
Загружаем скриншот графика акций, просим описать тренды и написать SQL-запрос для анализа аналогичных данных. Модель видит график, понимает контекст и генерирует код. Пример промпта: "На основе этого графического файла определи, была ли 'смерть креста' за последние 30 торговых сессий. Если да, напиши SQL для выделения таких паттернов за 2025 год." Small 4 справляется без дополнительных инструментов.
2 Автоматизация обработки накладных
Подаем на вход фотографию накладной. Модель извлекает текст (OCR), суммирует позиции, проверяет суммы, форматирует результат в JSON. Режим reasoning помогает верифицировать арифметику. Это реально снижает затраты на RPA-ботов.
3 Reasoning-агент для отладки кода
Скопировали стек ошибки и скриншот интерфейса — модель объясняет причину бага и предлагает исправление. Подобные сценарии мы описывали в тест-драйве MiniMax M2.5. Mistral Small 4 работает аналогично, но с открытыми весами.
Как запустить: быстрый старт
Для инференса можно использовать Hugging Face Transformers (версия >=4.50) или vLLM (версия >=0.8). Пример загрузки через Transformers:
from transformers import AutoModelForCausalLM, AutoTokenizer
model_name = "mistralai/Mistral-Small-4-119B"
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForCausalLM.from_pretrained(
model_name,
device_map="auto",
torch_dtype="auto"
)
prompt = "<think>Answer the following question step by step.</think> What is 15% of 200?"
inputs = tokenizer(prompt, return_tensors="pt").to("cuda")
outputs = model.generate(**inputs, max_new_tokens=256)
print(tokenizer.decode(outputs[0]))
Для мультимодального ввода потребуется библиотека mistral-common (отдельный пакет от Mistral AI). Подробнее смотрите в документации к модели.
device_map="sequential" или квантизацию через BitsAndBytes.Кому это вообще нужно?
Mistral Small 4 — не для всех. Если вам нужна модель для простого чата — проще использовать GPT-4o через API. Но если вы:
- строите агентные системы с мультимодальным входом;
- хотите локально хостить модель с reasoning и без цензуры;
- планируете дообучать модель под специфические визуальные задачи;
- исследуете MoE-архитектуры и хотите экспериментировать;
...то Small 4 — пожалуй, лучший выбор на начало 2026 года. DeepSeek-V3 закрыт по коммерции, HyperNova-60B не видит картинки, Qwen2.5-MoE не имеет встроенного reasoning.
Один неочевидный совет: не гонитесь за полной разверткой на одной видеокарте. Вместо этого арендуйте A100 или H100 на несколько часов для тестов. Modal.com позволяет запустить модель на 4xA100 за $5-10 в час. Это дешевле, чем покупать железо.
Прогноз: к концу 2026 года мы увидим еще больше открытых MoE-моделей от других игроков. Но Mistral Small 4 задает планку — сочетание размера, открытости и функциональности пока никто не переплюнул. Если французы выпустят Large версию с 400B+ параметров, рынок вздрогнет.