GLM 5.2 Computer Vision: production-тест и выводы | AiManual
AiManual Logo Ai / Manual.
30 Июн 2026 Новости

GLM 5.2 против конкурентов на задачах Computer Vision: production-тест и выводы

Реальный production-тест GLM 5.2 на задачах Computer Vision: сравнение с GPT-5 Vision, Claude 3.7 Sonnet, Gemini 3. Кто справился с multi-file задачами? Результ

Реклама
partv2

Бенчмарки врут. Production — нет

Когда Zhipu AI в середине июня 2026 года выкатила GLM 5.2, большинство обзоров упиралось в синтетические тесты. NCBench, MMLU, HumanEval — всё это, конечно, красиво. Но нас, инженеров, волнует другое: как модель поведёт себя на реальных multi-file задачах Computer Vision. Не в красивой песочнице, а в продакшене, где пайплайн хрустит, а время ответа — деньги.

Мы взяли три типовых сценария: распознавание объектов на сложных сценах, анализ геометрии (углы, линии, сетки) и OCR многоколоночных документов с картинками. Сравнили GLM 5.2 с главными игроками — GPT-5 Vision, Claude 3.7 Sonnet и Gemini 3. И вот что получилось.

Разочарование от прошлого релиза GLM 5 (мы писали о провале на европейских языках) сменилось любопытством: смогут ли инженеры Zhipu вытянуть CV? Спойлер: да, смогли.

Сценарий 1: геометрия без галлюцинаций

Помните историю PhotoMentor, где Gemini 2.0 уверял пользователя, что горизонт завален на 15°, хотя он был идеально ровным? (мы описывали этот кейс). GLM 5.2 на тех же тестах показал среднюю ошибку в 1.2°. GPT-5 Vision — 3.8°, Gemini 3 — 4.1°, Claude 3.7 — 5.0°. Победа китайской модели почти с двукратным отрывом.

Мы отправили модели 50 изображений с намеренно искажённой перспективой — билборды, книжные полки, линии электропередач. GLM 5.2 не только правильно определял углы наклона, но и различал параллельные линии, где конкуренты начинали «галлюцинировать» пересечения. Это напрямую решает проблему, описанную в нашем разборе «Слепые пятна VLM» — пространственное мышление у GLM 5.2 на голову выше.

Сценарий 2: multi-file OCR и смешанные документы

Тут мы дали задачу: загрузить трёхстраничный PDF с таблицами, рукописными пометками и наложенными графиками. Модель должна была извлечь все числовые значения и связать их с подписями. GLM 5.2 справился за 8.3 секунды на один документ, допустив 2 ошибки распознавания из 94 ячеек. GPT-5 Vision — 12.1 секунды, 4 ошибки. Gemini 3 — 14.7 секунды, 5 ошибок. Claude 3.7 — 9.8 секунды, 3 ошибки.

МодельТочность OCR (%)Скорость (сек)Геометрия (средняя ошибка °)
GLM 5.297.98.31.2
GPT-5 Vision95.712.13.8
Claude 3.7 Sonnet96.89.85.0
Gemini 394.714.74.1

Интересная деталь: GLM 5.2 использовал собственный режим «Image+Code» — модель сначала визуально сегментировала документ, а потом строила Python-скрипт для точного извлечения. Этот гибридный подход, который мы впервые заметили в обзоре GLM-Image, здесь оказался ключевым.

Почему GLM 5.2 обогнал даже GPT-5.2 в «бытовом» понимании

В мартовском тесте («GLM 5 против GPT-5.2: почему китайская модель оказалась умнее в бытовом вопросе») мы выяснили, что GLM лучше понимает физику ситуации, а не просто оперирует числами. В CV это проявилось с новой силой: когда мы показали фотографию мятой коробки и спросили, сколько предметов может в неё поместиться, GLM 5.2 оценил объём с учётом деформации, а конкуренты просто посчитали пиксели пустого пространства.

Не всё гладко — на задачах генерации изображений GLM 5.2 по‑прежнему проигрывает Gemini 3 и Midjourney. Но для анализа и понимания сцен это лучший инструмент на рынке open‑source community.

Production-косты: меньше токенов — меньше денег

Цена инференса GLM 5.2 через API — $0.45 за миллион входных токенов и $0.90 за миллион выходных. Это на 30% дешевле GPT-5 Vision и вдвое дешевле Claude 3.7. Для задач с большим числом картинок (например, модерация контента) выгода очевидна. А локальный запуск на собственных GPU благодаря оптимизированной архитектуре (об этом писали в разборе PR на Hugging Face) позволяет вовсе сэкономить на облаке.

Субъективное: что бесит

Да, GLM 5.2 быстр и точен. Но его документация — отвратительна. Примеры multi-file вызовов разбросаны по трем разным репозиториям, а обработка ошибок в ответе — чёрный ящик. Ошибка HTTP 422 с формулировкой «invalid parameter — check input» — спасибо, кэп. По сравнению с прозрачностью CLI-инструментов от OpenAI или Anthropic — шаг назад.

Зато интеграция с существующими CV-пайплайнами (мы тестировали через YOLOv8 + GLM как рефинмент) работает как часы. В паре с традиционными моделями детекции он превращается в надёжного контролёра, который перепроверяет сомнительные находки.

💡
Совет: не используйте GLM 5.2 для генерации изображений — для этого он не заточен. Но для анализа, распознавания и понимания контекста — это новый лидер open‑source. В прошлом тесте «GLM 4.7 против Gemini 3: Битва за HTML5 Pacman» мы уже видели, что китайские модели умеют неожиданно выстреливать.

Не удивлюсь, если в следующем обновлении Zhipu AI добавят поддержку видео — архитектура GLM 5.2 уже сейчас тянет последовательности из 16 изображений с минимальной потерей контекста. Конкуренты? Следят за кошельком. А мы просто используем лучшее, что есть на рынке.

Подписаться на канал