Mistral Small 4: Обзор MoE-модели 128 экспертов, API, сравнение | 2026 | AiManual
AiManual Logo Ai / Manual.
16 Мар 2026 Инструмент

Mistral Small 4: Французский эксперт, который съедает 128 котлет, но переваривает только две

Полный разбор Mistral Small 4: архитектура MoE 128/4, 119B параметров, мультимодальность. API, сравнение с GPT-4.5 и Claude 3.5, кому подходит в 2026.

Французы выпустили пушку. И она стреляет экспертами

Помните те утечки про Mistral 4? Так вот, 10 марта 2026 они стали реальностью. Mistral Small 4 — не просто очередная большая языковая модель. Это архитектурный манифест. 119 миллиардов параметров, из которых в любой момент времени активны только ~20. 128 экспертов в комитете, но для каждого вашего вопроса приглашают двоих. Остальные 126 продолжают обсуждать сиесту и сыры, не тратя ваши вычислительные ресурсы.

Лицензия Apache 2.0. Полная мультимодальность — текст, изображения, таблицы. Контекстное окно в 256 тысяч токенов. И та самая функция reasoning mode, которая заставляет модель "думать вслух", как Claude, но без американского пафоса.

Внимание: это Small версия. В семействе Mistral 4 будут и более крупные модели. Но Small 4 уже бьет по параметрам многие плотные модели 2025 года.

Архитектура: 128 экспертов, которые не толпятся у микрофона

Если вы читали нашу статью про Mixture of Experts в трансформерах, то знаете — классическая плотная архитектура мертва. Mistral Small 4 подтверждает это с французской элегантностью.

  • 128 экспертов в каждом MoE-слое. Каждый — независимая нейросеть.
  • Топ-2 активация. Для каждого токена маршрутизатор выбирает только двух самых компетентных экспертов.
  • 119B общих параметров, но активных параметров на инференс — примерно 20B. Вот где магия экономии.
  • Архитектура Mistral 4 — улучшенный трансформер с новой схемой позиционного кодирования, которая не сходит с ума на 256k контексте.

Китайские коллеги, о которых мы писали в статье "MoE — архитектурный стандарт китайских моделей", могут нервно курить в сторонке. Французы взяли их идею и добавили средиземноморской изысканности.

Что умеет кроме разговоров? Всё, что видит

Мультимодальность в 2026 году — это не фича, а ожидание по умолчанию. Mistral Small 4 понимает:

Тип ввода Что делает модель
Текст Пишет, анализирует, переводит, суммирует. Стандарт.
Изображения Описание, анализ содержимого, извлечение текста (OCR).
Таблицы (CSV, Excel) Анализ данных, поиск аномалий, генерация выводов.
Смешанный контент Например, PDF-документ с текстом и графиками.

Reasoning mode — вот что действительно цепляет. Активируете флаг reasoning=true в API, и модель начинает выдавать цепочки мыслей. Не просто ответ, а рассуждение: "Сначала я анализирую вопрос... Замечаю, что данные противоречивы... Поэтому предлагаю два варианта..." Идеально для сложных аналитических задач.

API: Проще, чем заказать круассан в Париже

Mistral всегда славились удобным API. Small 4 — не исключение. Два основных способа:

  1. Через официальный Mistral API — платно, но с гарантированной uptime и поддержкой.
  2. Самый хардкор — скачать веса с Hugging Face и крутить на своем железе. Лицензия Apache 2.0 позволяет все.
💡
Если решите запускать локально, прочитайте наше руководство "Почему LM Studio медленнее llama.cpp для MoE-моделей". Для Small 4 с его 128 экспертами выбор инструмента инференса критичен.

Пример запроса к API (да, в новостях кода быть не должно, но без этого никак):

import requests

headers = {
    "Authorization": "Bearer YOUR_API_KEY",
    "Content-Type": "application/json"
}

payload = {
    "model": "mistral-small-4",
    "messages": [
        {"role": "user", "content": "Проанализируй этот график и сделай вывод"} 
    ],
    "images": ["base64_encoded_image"],
    "reasoning": true,
    "max_tokens": 2000
}

response = requests.post("https://api.mistral.ai/v1/chat/completions", 
                         json=payload, 
                         headers=headers)
print(response.json()['choices'][0]['message']['content'])

В ответе получите не просто описание графика, а структурированный анализ с обоснованием. Если, конечно, не отключите reasoning mode.

С кем деремся? Сравнение на ринге 2026 года

Ландшафт LLM в марте 2026 — это не только OpenAI и Anthropic. Вот основные конкуренты Mistral Small 4:

Модель Архитектура Контекст Лицензия Сильная сторона
Mistral Small 4 MoE 128/4 256k Apache 2.0 Баланс цены и качества, reasoning mode
GPT-4.5 Turbo (янв 2026) Плотная (предположительно) 128k Проприетарная Интеграции, экосистема
Claude 3.5 Sonnet Неизвестно 200k Проприетарная Рассуждения, безопасность
Qwen 3.5 MoE 122B MoE 64/4 128k Apache 2.0 Китайский язык, стоимость

По бенчмаркам MMLU (март 2026) Mistral Small 4 показывает 86.4%. Это немного ниже GPT-4.5 (89.1%), но значительно дешевле в эксплуатации. А в задачах на французский язык и юридические тексты EU — вообще вне конкуренции.

Кому впишется в техстек? Трем типам людей

1. Стартапы с тощим бюджетом. Хотите мультимодального ИИ в продукт, но платить OpenAI как за второй офис? Качайте веса, настраивайте инференс на своем железе (см. "Тройной GTX 1070 против MoE-моделей") и работайте. Apache 2.0 — модифицируйте, встраивайте, продавайте.

2. Исследователи, которые устали от черных ящиков. Reasoning mode позволяет заглянуть в "ход мыслей" модели. Плюс полная прозрачность архитектуры. Хотите поэкспериментировать с маршрутизацией экспертов? Держите исходники.

3. Европейские компании с паранойей насчет данных. Данные не должны уходить в США или Китай? Разворачивайте Mistral Small 4 в своем дата-центре в Германии или Франции. Модель тренирована с учетом GDPR, и вы контролируете все.

Предупреждение для энтузиастов: запуск 119B модели локально — это не про игры. Даже с MoE-архитектурой вам потребуется минимум 48 ГБ VRAM для работы в FP8. Или читайте нашу статью про "CPU-only MoE", если видеокарт нет.

Итог: Французы сделали ставку на изящную эффективность

Mistral Small 4 не пытается быть самой большой моделью в мире. Она пытается быть самой умной в расчете на потраченный мегаватт. 128 экспертов — это не показуха, а инженерный расчет. В 2026 году, когда каждый доллар за cloud-инференс на счету, такой подход имеет смысл.

Open-source сообщество уже копается в весах. Через месяц появятся квантованные версии под разные железки. Через два — fine-tune'ы под узкие задачи. А пока — это один из самых сбалансированных вариантов для тех, кто хочет modern AI без modern ценников.

Мой прогноз? К лету 2026 половина европейских стартапов, заявляющих об "ИИ внутри", будет работать на вариациях Mistral 4. А GPT-4.5 останется для тех, кому лень возиться с настройкой. Выбор за вами.

Подписаться на канал