Mistral Small 4: когда «видеть» не значит «понимать»
Mistral выпустила Small 4 в марте 2026 года с громкими заявлениями о мультимодальности. Модель умеет обрабатывать изображения, но после тестов возникает вопрос: а зачем?
Я протестировал её на десятках картинок — от простых бытовых сцен до сложных диаграмм. Результаты разочаровывают. Вот живые примеры.
Пример 1: кот на диване (или нет?)
Промпт был простым, как дверь:
Ответ Mistral Small 4:
На самом деле, на картинке был четко видимый кот на красном диване. Модель не смогла выделить ни цвета, ни действия. Это как если бы вы спросили у человека с плохим зрением, и он ответил: «Что-то есть».
Пример 2: диаграмма роста продаж
Попробуем что-то сложнее — график:
Ответ:
И это всё. Ни осей, ни трендов. Просто констатация, что есть «графические элементы». Для сравнения, Qwen 3.5 и Gemini 3 Pro в аналогичных тестах выдают развернутые описания графиков.
Проблема не в картинках, а в модели. Mistral Small 4, судя по всему, имеет очень поверхностное понимание изображений. Она детектирует наличие визуальных данных, но не может их интерпретировать.
Почему так происходит? Технические причины
Mistral Small 4 — это дистиллированная модель. Как и в случае с деградацией интеллекта в дистиллированных моделях, мультимодальность могла пострадать при сжатии.
Архитектура Vision-Language в Small 4, вероятно, упрощена по сравнению с более крупными моделями. Модель обучена на меньшем наборе данных изображений, или процесс выравнивания был неполным.
Кроме того, модель оптимизирована для скорости и эффективности, что часто происходит в ущерб качеству понимания контента. Это напоминает ситуацию с Mistral Small 4 в текстовых задачах, где модель быстро обрабатывает контекст, но глубина анализа страдает.
Сравнение с альтернативами: что делать, если нужно описать изображение
Если вам действительно нужна мультимодальность, рассмотрите другие варианты:
- Gemini 3 Pro — от Google, отлично справляется с описанием изображений, понимает контекст и детали. Недавно обновлен в 2026 году.
- Qwen 3.5 32B — показала хорошие результаты в слепых тестах, особенно для визуальных задач.
- Llama 4 16x17B — если у вас есть ресурсы, эта модель предлагает глубокое понимание изображений. Инструкция по запуску.
- Для локального использования, MiniStral или Qwen могут быть лучше, чем Mistral Small 4.
В стресс-тесте на зрение ChatGPT, Gemini и Claude показали себя намного лучше, чем Mistral Small 4.
Кому подойдет Mistral Small 4 с её мультимодальностью?
Ответ: почти никому. Если вы рассчитывали на точное описание изображений, вы разочаруетесь.
Но модель может быть полезна в сценариях, где нужно лишь определить, есть ли на изображении какой-то контент, без деталей. Например, для фильтрации изображений по наличию текста или простых объектов.
Или если вы используете Small 4 в основном для текстовых задач, а мультимодальность — бонус, который не критичен. Например, для чат-ботов, где изображения редкость.
Вывод: не ведитесь на маркетинг
Mistral Small 4 — быстрая и эффективная модель для текста. Но её мультимодальность, по состоянию на март 2026, сырая и недоделанная.
Если вам нужно работать с изображениями, выбирайте специализированные VLM модели. И не забывайте, что маленькие модели часто жертвуют качеством ради скорости — как в случае с Gemma 3 12B, которую можно заставить думать лучше с помощью промптов.
А Mistral Small 4? Пусть сначала научится видеть, а потом уже обещает мультимодальность.