Почему Mistral Small 4 плохо описывает изображения?

Модель имеет упрощенную архитектуру Vision-Language, оптимизированную для скорости, а не для глубины понимания. Это часто происходит с дистиллированными моделями, где мультимодальность страдает при сжатии.

Какие модели лучше подходят для описания изображений в 2026 году?

Gemini 3 Pro, Qwen 3.5 32B и Llama 4 16x17B показывают гораздо лучшие результаты в понимании и описании визуального контента, согласно независимым тестам.

Mistral Small 4 тест: плохое описание изображений | Примеры

Mistral Small 4: когда «видеть» не значит «понимать»

Mistral выпустила Small 4 в марте 2026 года с громкими заявлениями о мультимодальности. Модель умеет обрабатывать изображения, но после тестов возникает вопрос: а зачем?

Я протестировал её на десятках картинок — от простых бытовых сцен до сложных диаграмм. Результаты разочаровывают. Вот живые примеры.

Пример 1: кот на диване (или нет?)

Промпт был простым, как дверь:

Промпт: Опиши изображение: фото кота, который сидит на красном диване. Кот черно-белый, смотрит в камеру.

Ответ Mistral Small 4:

На изображении возможно присутствует мебель и домашнее животное. Точные детали, такие как цвет или поза, не могут быть определены с уверенностью.

На самом деле, на картинке был четко видимый кот на красном диване. Модель не смогла выделить ни цвета, ни действия. Это как если бы вы спросили у человека с плохим зрением, и он ответил: «Что-то есть».

Пример 2: диаграмма роста продаж

Попробуем что-то сложнее — график:

Промпт: На изображении представлена диаграмма. Опиши, что на ней показано: оси, тренды, значения.

Ответ:

Изображение содержит графические элементы, которые могут представлять данные. Конкретная информация не распознана.

И это всё. Ни осей, ни трендов. Просто констатация, что есть «графические элементы». Для сравнения, Qwen 3.5 и Gemini 3 Pro в аналогичных тестах выдают развернутые описания графиков.

Проблема не в картинках, а в модели. Mistral Small 4, судя по всему, имеет очень поверхностное понимание изображений. Она детектирует наличие визуальных данных, но не может их интерпретировать.

Почему так происходит? Технические причины

Mistral Small 4 — это дистиллированная модель. Как и в случае с деградацией интеллекта в дистиллированных моделях, мультимодальность могла пострадать при сжатии.

Архитектура Vision-Language в Small 4, вероятно, упрощена по сравнению с более крупными моделями. Модель обучена на меньшем наборе данных изображений, или процесс выравнивания был неполным.

Кроме того, модель оптимизирована для скорости и эффективности, что часто происходит в ущерб качеству понимания контента. Это напоминает ситуацию с Mistral Small 4 в текстовых задачах, где модель быстро обрабатывает контекст, но глубина анализа страдает.

Сравнение с альтернативами: что делать, если нужно описать изображение

Если вам действительно нужна мультимодальность, рассмотрите другие варианты:

Gemini 3 Pro — от Google, отлично справляется с описанием изображений, понимает контекст и детали. Недавно обновлен в 2026 году.
Qwen 3.5 32B — показала хорошие результаты в слепых тестах, особенно для визуальных задач.
Llama 4 16x17B — если у вас есть ресурсы, эта модель предлагает глубокое понимание изображений. Инструкция по запуску.
Для локального использования, MiniStral или Qwen могут быть лучше, чем Mistral Small 4.

В стресс-тесте на зрение ChatGPT, Gemini и Claude показали себя намного лучше, чем Mistral Small 4.

Кому подойдет Mistral Small 4 с её мультимодальностью?

Ответ: почти никому. Если вы рассчитывали на точное описание изображений, вы разочаруетесь.

Но модель может быть полезна в сценариях, где нужно лишь определить, есть ли на изображении какой-то контент, без деталей. Например, для фильтрации изображений по наличию текста или простых объектов.

Или если вы используете Small 4 в основном для текстовых задач, а мультимодальность — бонус, который не критичен. Например, для чат-ботов, где изображения редкость.

💡

Совет: Всегда тестируйте мультимодальные модели на своих данных. Используйте промпты для сравнения LLM, чтобы оценить качество описания изображений.

Вывод: не ведитесь на маркетинг

Mistral Small 4 — быстрая и эффективная модель для текста. Но её мультимодальность, по состоянию на март 2026, сырая и недоделанная.

Если вам нужно работать с изображениями, выбирайте специализированные VLM модели. И не забывайте, что маленькие модели часто жертвуют качеством ради скорости — как в случае с Gemma 3 12B, которую можно заставить думать лучше с помощью промптов.

А Mistral Small 4? Пусть сначала научится видеть, а потом уже обещает мультимодальность.

Подписаться на канал

Тест мультимодальности Mistral Small 4: почему модель так плохо описывает изображения (с примерами промптов и ответов)