Mistral Small 4 vs Qwen3.5-9B: бенчмарки понимания документов в 2026 | AiManual
AiManual Logo Ai / Manual.
20 Мар 2026 Инструмент

Сравнение Mistral Small 4 и Qwen3.5-9B в понимании документов: детальный разбор бенчмарков

Полный разбор IDP leaderboard, OlmOCR и OmniDocBench. Какая модель — Mistral Small 4 или Qwen3.5-9B — реально работает с документами, а где вас обманут. Данные

Кто кого съест: две модели и куча бумажек

В 2026 году автоматизация документооборота — это не будущее, а необходимость. И тут все упирается в одну проблему: какую AI-модель поставить на конвейер? Mistral Small 4 и Qwen3.5-9B постоянно мелькают в списках. Но цифры из маркетинговых презентаций — это одно. А как они справляются со счетами, договорами и отчетностями, которые пачками валятся в каждую компанию? Давайте смотреть на холодные результаты бенчмарков, а не на громкие заявления.

Важный нюанс: все данные актуальны на март 2026 года. Если вы читаете это позже — скорее всего, уже есть новые версии. Например, Mistral, возможно, выпустила Small 5, а Alibaba — Qwen4. Но принципы сравнения и слабые места моделей останутся теми же.

Mistral Small 4: французская точность или ограниченный рацион?

Mistral Small 4 позиционируется как компактная, но мощная модель для обработки текста. Французы сделали ставку на эффективность архитектуры — модель относительно небольшая (параметры не раскрываются, но по слухам, около 12B), но с контекстом в 128 тысяч токенов. В теории она должна "переваривать" длинные документы целиком.

Но, как мы уже писали ранее, есть нюанс. Модель умеет загрузить в контекст много информации, но извлекать из нее ответы — не всегда. Особенно это касается мультимодальных задач. Если в документе есть графики или схемы, то Small 4, по сути, слепнет, как показал наш тест на мультимодальность.

Qwen3.5-9B: китайский трудоголик с проблемами перевода

Qwen3.5-9B от Alibaba — это модель с открытыми весами, которая стала неожиданно популярной для локального развертывания. 9 миллиардов параметров, контекстное окно до 128к, и что важно — изначальная тренировка на разнообразных корпусах, включая юридические и финансовые тексты. Она создавалась с прицелом на азиатские рынки, но неплохо понимает и английский, и русский.

Где Qwen реально сияет? В извлечении структурированных данных из таблиц и заполненных форм. Но есть и обратная сторона: иногда модель "галлюцинирует" при работе с документами на неродных языках, добавляя детали, которых в исходнике не было. И да, она очень чувствительна к качеству квантования — об этом мы подробно рассказывали в разборе квантований для Qwen.

💡
Обе модели доступны для локального запуска. Mistral Small 4 можно использовать через официальный API (mistral.ai) или развернуть самостоятельно. Qwen3.5-9B — полностью открыта, скачать можно с Hugging Face или через Alibaba Cloud (alibabacloud.com).

Цифры, от которых плачут маркетологи

Перейдем к самому интересному — бенчмаркам. Мы взяли три основных теста, которые имеют хоть какое-то отношение к реальным задачам: IDP Leaderboard (фокус на извлечение полей из документов), OlmOCR (работа с текстом, распознанным через OCR) и OmniDocBench (комплексное понимание структуры).

Бенчмарк (версия на 03.2026) Mistral Small 4 Qwen3.5-9B Что это значит на практике
IDP Leaderboard (F1-score) 78.3% 82.1% Qwen лучше на 3.8 пункта извлекает данные типа дат, сумм, названий из стандартных форм (инвойсы, договоры).
OlmOCR v3 (Accuracy) 76.5% 81.2% Когда OCR криво распознал текст (смещение строк, шум), Qwen справляется заметно лучше.
OmniDocBench (Avg. Score) 72.5 / 100 79.8 / 100 В комплексных задачах (ответы на вопросы по документу, суммаризация) Qwen лидирует с отрывом.
Скорость ответа (токен/с, на M4 Max) ~45 т/с ~38 т/с Mistral быстрее, но разница не критичная. Особенно если учесть, что оптимизация под железо может все изменить.

Цифры не оставляют сомнений: Qwen3.5-9B по всем фронтам бьет Mistral Small 4 в задачах понимания документов. Разрыв в 4-7 процентных пунктов — это не погрешность, а существенная разница в качестве. Особенно на кривых сканах, которые есть в 90% реальных задач.

Где они лажают: живые примеры

Давайте представим простой промпт для извлечения данных из счета:

Извлеки из текста счета следующую информацию в JSON:
- Номер счета (invoice_number)
- Дата выставления (issue_date)
- Общая сумма к оплате (total_amount)
- Валюта (currency)

Текст счета: "Invoice #INV-2026-789 от 15.03.2026. Итого к оплате: 1 250,75 евро (EUR)."

Mistral Small 4 частенько выдает что-то вроде: {"invoice_number": "INV-2026-789", "issue_date": "15.03.2026", "total_amount": 1250.75, "currency": "EUR"}. Вроде верно. Но если в тексте есть лишние пробелы или запятые вместо точек, модель может запутаться в формате числа.

Qwen3.5-9B в этом случае более устойчива: она корректно обрабатывает и "1 250,75", и "1250.75". Но зато иногда, если валюта не указана явно, Qwen может "додумать" ее на основе языка документа, что приводит к ошибкам. Mistral в такой ситуации чаще возвращает null.

А есть ли другие варианты?

Конечно. В 2026 году на рынке полно моделей, претендующих на звание "документных".

  • GPT-4 Document: Специализированная версия от OpenAI, показывает результаты на 5-8% выше, чем Qwen. Но это закрытый API, и цена в 3-4 раза выше. Не для локального развертывания.
  • Claude Document: Антроповский Клод отлично справляется с длинными юридическими текстами, но его слабое место — таблицы и формы. И контекст в 200к токенов не всегда спасает.
  • Специализированные DocLLM: Модели, обученные исключительно на документах. Они бьют всех по точности на своих узких задачах (например, медицинские справки), но совершенно бесполезны для всего остального.

Если же вам нужна именно локальная модель, то стоит посмотреть на квантованные версии. Например, Qwen3-32B в INT4 дает огромный выигрыш в памяти при минимальной потере точности. Или поэкспериментировать с разными форматами, как в сравнении квантований для GLM.

Кому какую модель впаривать

Выбор не так сложен, если отбросить маркетинг.

Берите Qwen3.5-9B, если:

  • Ваши документы — это сканы, фотографии, кривые PDF с OCR-текстом.
  • Нужно извлекать много структурированных данных (цифры, даты, коды).
  • Вы работаете с азиатскими языками или мультиязычными документами.
  • Готовы повозиться с выбором квантования для оптимальной производительности.

Выбирайте Mistral Small 4, если:

  • Ваши документы — это чистый, хорошо структурированный текст (например, выгрузки из CRM, лог-файлы).
  • Скорость обработки для вас важнее абсолютной точности на 2-3%.
  • Вы уже используете экосистему Mistral (например, Mistral Vibe для других задач).
  • Боитесь "галлюцинаций" — Mistral в среднем более консервативна и реже выдумывает.

Что нас ждет завтра?

К марту 2026 стало очевидно: специализация победит. Универсальные модели вроде GPT-4 или Claude будут держать марку, но для массового документооборота появятся десятки мелких, заточенных под конкретные типы документов AI. Представьте модель, которая обучена только на транспортных накладных или медицинских страховках. Она будет дешевле, быстрее и точнее любой общей.

Поэтому мой совет: не зацикливайтесь на одной модели. Постройте пайплайн, где роутер определяет тип документа и отправляет его в нужную специализированную модель. Mistral Small 4 и Qwen3.5-9B отлично подойдут как "универсальные солдаты" на первом этапе такой системы. Но готовьтесь, что через год их место займут более узкие инструменты. И да, учитесь работать с квантованными версиями — это единственный способ уместить все это хозяйство на одном сервере.

Подписаться на канал