Бенчмарки VLM лгут. Но только если их неправильно читать. В середине 2026 года команда OpenVLM обновила свой рейтинг локальных моделей зрения — и расклад сил изменился кардинально. Больше никаких накрученных баллов на синтетике. Теперь тесты вшивают в реальные сценарии: чтение чеков, распознавание дефектов на производстве, анализ медицинских снимков. И вот кто вывез, а кто остался пылиться на GitHub.
Что сломали в бенчмарке?
Разработчики OpenVLM выкинули три четверти старых датасетов. Оставили только те, где модель должна понять изображение, а не просто найти на нём текст. Как показал недавний бенчмарк SPLICE, видео-языковые модели всё ещё проваливаются в временных рассуждениях. Но статические VLM тоже не идеальны: исследование слепых пятен VLM вскрыло, что модели часто подменяют понимание пространства тупым OCR. В новом бенчмарке такие трюки перестали работать — пришлось переучиваться.
Таблица лидеров (21 июня 2026)
| Модель | MMBench 1.1 | OCRBench | SEED-Bench 2.0 | Инференс (токен/с) RTX 4090 |
|---|---|---|---|---|
| Qwen3.5-VL-72B | 86.3 | 79.8 | 82.1 | 14 |
| Gemma 4 Vision Budget (2B) | 78.2 | 74.5 | 76.0 | 92 |
| ZwZ-8B | 72.4 | 81.1 | 70.3 | 48 |
| Minimax-M2.7-VL | 80.1 | 76.2 | 78.9 | 35 |
| GLM-5.1-Vision | 84.0 | 77.6 | 80.4 | 22 |
Бенчмарк собран на одинаковом железе: RTX 4090, 64GB RAM, quantized до F8 для всех моделей. Результаты могут отличаться на других картах.
Слон в комнате: ZwZ-8B
Китайцы из ZwZ снова удивили. Их модель размером 8B параметров набрала 81 балл в OCRBench — почти как Qwen-72B. Секрет — в особом механизме внимания, который не требует апскейла картинки. Мы подробно разбирали эту архитектуру, и она реально вывозит на мелких объектах. Но на тестах общего понимания сцены ZwZ-8B проседает. Универсалом её не назвать, но для OCR — зверь.
Gemma 4 Vision Budget — убийца бюджетных решений
Google выкатила лёгкую версию Gemma 4 Vision всего на 2 миллиарда параметров. И она уделала многие старые 7B модели. 78 баллов MMBench — это уровень прошлогоднего LLaVA-13B. А скорость 92 токена в секунду — молния. Для дома, для семьи, для ретейл-аналитики — идеально. И да, это та самая Gemma 4 vision budget, о которой все говорили в мае. В майском дайджесте open-source мы уже отмечали восход Qwen, но Gemma 4 Vision Budget забрала корону в лёгком весе.
Qwen3.5-VL: гигант, которому всё нипочём
Alibaba не сбавляет. Qwen3.5-VL-72B — абсолютный лидер по всем метрикам, кроме скорости. 86 баллов MMBench — это потолок среди локальных моделей на сегодня. Но запустить её дома — задача. Нужна как минимум 48GB VRAM. В статье про лучшие локальные LLM апреля 2026 мы писали, что Qwen3.5 уже тогда правил бал. Сейчас он укрепил позиции, но для обычного пользователя это overkill.
Не ведитесь на один лишь MMBench. Если ваша задача — чтение мелкого текста с этикеток, ZwZ-8B обойдёт Qwen. Если нужно быстро анализировать тысячи видео — берите Gemma 4 Vision Budget. Бенчмарк — компас, а не карта.
Почему это вообще работает сейчас
Полгода назад локальные VLM были игрушками. Тормозили, ошибались на простых сценах. Ключевые факторы прогресса — квантизация, архитектурные оптимизации (как в ZwZ) и конкуренция между Google, Alibaba и китайскими стартапами. История локальных LLM повторяется: сначала гиганты, потом оптимизация под потребительское железо. Сейчас мы на стадии «доступно каждому».
Кому что брать
Если у вас RTX 5090 и вы готовы ждать — ставьте Qwen3.5-VL-72B. Если железо скромнее — Gemma 4 Vision Budget реально лучший выбор. Для специфических задач с текстом — ZwZ-8B. А если у вас Mac и вы плачете от ограничений — GLM-5.1-Vision хорошо оптимизирован под MPS, хотя уступает лидерам. Сообщество Reddit в этом году склоняется к Gemma 4, и на то есть причины.
И главный совет: не гонитесь за цифрами. Для 90% задач хватит Gemma 4 Vision Budget. А сэкономленные деньги потратьте на хорошую веб-камеру — толку будет больше.