Новый агентный бенчмарк: Claude Fable и GLM 5.2 — лидеры | AiManual
AiManual Logo Ai / Manual.
19 Июн 2026 Новости

Новый агентный бенчмарк: Claude Fable и GLM 5.2 лидируют в своих категориях — что это значит для разработчиков

Свежий бенчмарк агентных способностей: Claude Fable (Anthropic) и GLM 5.2 (Zhipu) возглавляют рейтинг. Разбираем, что выбрать разработчику.

Реклама
partv1

На этой неделе команда исследователей из нескольких университетов опубликовала результаты нового бенчмарка для оценки агентных способностей LLM. Бенчмарк проверяет, насколько хорошо модели справляются с задачами, где нужно не просто отвечать на вопросы, а действовать: вызывать API, работать с файловой системой, выполнять многошаговые планы. Итоги неожиданные, но укладывающиеся в тренд: Claude Fable от Anthropic — абсолютный лидер среди закрытых моделей, а GLM 5.2 от Zhipu AI — лучший в категории open-source/open-weights. Что это вообще такое и почему вам не всё равно?

Что за зверь и с чем его едят

Новый бенчмарк (пока без звучного названия, но в сообществе его уже окрестили «AgentArena») состоит из 150 задач, разбитых на 6 доменов: веб-автоматизация, работа с базами данных, написание и отладка кода, управление файлами, взаимодействие с внешними API и планирование. Каждая задача — это симуляция реального сценария. Модель получает описание цели и набор инструментов. Оценивается не только успешность, но и количество шагов, эффективность использования инструментов и устойчивость к ошибкам.

Важный нюанс: разработчики бенчмарка сознательно убрали из тестов задачи, которые можно решить простым копированием из обучающей выборки. Каждый сценарий — уникальная комбинация, так что «заучивание» не прокатит.

Цифры, от которых взрывается мозг

Результаты сведены в таблицу, которая уже разошлась по AI-комьюнити. Вот ключевые показатели (общий балл по 100-балльной шкале и отдельно по домену «Программирование»):

Модель Категория Общий балл Программирование Веб-автоматизация
Claude Fable Закрытая (Anthropic) 91.2 89.5 93.0
GPT-5 Omni Закрытая (OpenAI) 87.4 85.1 86.8
Gemini Ultra 2.0 Закрытая (Google) 85.6 82.3 88.1
GLM 5.2 Открытая (Zhipu) 82.1 80.6 84.3
Qwen 3.5 Открытая (Alibaba) 79.8 77.2 80.5
Llama 5 Agent Открытая (Meta) 76.3 74.0 78.9

Claude Fable вырвался вперёд сразу на 4 пункта, оставив GPT-5 Omni и Gemini Ultra 2.0 пылиться в хвосте. Самое обидное для OpenAI — провал в веб-автоматизации: модель часто теряла нить последовательности действий. А вот GLM 5.2 снова подтверждает статус короля открытых моделей. Причём с большим отрывом от Qwen 3.5 и Llama 5 Agent.

Бенчмарк не идеален — это признают даже его создатели. Например, задачи на управление файлами оказались слишком лёгкими для всех топ-моделей, а домен «Планирование» — наоборот, слишком сложным. Но общая картина ясна.

Что это значит для разработчика, который прямо сейчас выбирает модель

Два принципиально разных пути.

Claude Fable — если деньги не пахнут и нужен максимум

Claude Fable доступен только через Anthropic API. Цена кусается: ~$30 за миллион токенов input и $90 за output (по слухам, официальные прайсы ещё не вышли). Зато он не просто выполняет команды — он пытается «думать» над задачей, переформулировать цель, если что-то пошло не так. Разработчики, которые уже интегрировали Fable в свои агентные пайплайны, в один голос твердят: «Он реже зависает в бесконечных циклах, чем GPT-5». Если ваш сервис обрабатывает тысячи запросов в час и каждый сбой стоит денег — Fable может окупить цену.

GLM 5.2 — свобода, контроль и вменяемый чек

С другой стороны, GLM 5.2 недавно побил рекорд Terminal-Bench, став первой открытой моделью с результатом выше 80%. Теперь ещё и новое достижение. Модель распространяется под коммерческой лицензией, весит около 70 млрд параметров (квантованная версия — 35 млрд) и спокойно запускается на двух A100. Это значит, вы можете развернуть её у себя, не отправляя данные на чужие сервера. Китайский регулятор? Да, есть нюанс, но через OpenRouter или собственный инстанс — без проблем. Мы уже писали, как GLM 5 появился на OpenRouter и показал неожиданно хорошую производительность для закрытых задач. GLM 5.2 — существенный шаг вперёд.

💡
На практике разработчики уже используют GLM 5.2 в своих агентных фреймворках — например, в LangChain и CrewAI. Отзывы: модель реже «галлюцинирует» при вызове API и лучше держит контекст длинных диалогов. Но есть жалобы на скорость генерации — она примерно на 15% медленнее, чем у Llama 5 Agent того же размера.

Почему это не случайность — контекст побед GLM

Zhipu AI последовательно улучшает свою модель. Ещё месяц назад GLM-5 возглавил бенчмарк Extended NYT Connections, обойдя Claude Opus на 2%. Тогда это казалось случайностью — просто удачный набор задач. Теперь, с новым бенчмарком и рекордом Terminal-Bench, становится ясно: это системная работа. Инженеры Zhipu явно сделали упор на агентные сценарии: улучшили планирование, научили модель перезапрашивать уточнения, если задача неоднозначна. Интересно, что в тесте на «личность» (анализ поведения через системный промпт) GLM 5.2 показал схожие с Claude паттерны — как мы и обсуждали в статье про GLM 5 и «личность Клода».

При этом GLM 5 уже показывал неожиданные результаты в тестах веб-разработки против Claude Code, обходя его в ряде сценариев. Теперь же GLM 5.2 окончательно закрепляет статус лучшей открытой модели для агентов.

Что дальше? (спойлер: не гонитесь за топ-1)

Да, Claude Fable — король. Да, GLM 5.2 — лучший open-source. Но бенчмарк — это не вся правда. Для типовых задач вроде «отправь email» или «добавь запись в базу» даже Llama 5 Agent справится с вероятностью 95%. Главное — не переплачивать за лишние 5 процентных пунктов.

Мой совет: возьмите GLM 5.2, если у вас есть GPU или вы готовы арендовать инстанс. Он дешевле, приватнее и достаточно умён. Если ваш проект — высоконагруженный агент с критическими сценариями (финансовые операции, медицинские рекомендации) — имеет смысл посмотреть в сторону Claude Fable. Но помните: Anthropic может в любой момент изменить цены или политику использования. Открытая модель — это ваша территория.

И ещё: следите за новыми версиями GLM. Если Zhipu продолжит так же быстро обновлять модель, то разрыв между закрытыми и открытыми агентами может исчезнуть уже к концу года. А пока — тестируйте на своих сценариях и не верьте бенчмаркам на слово.

Подписаться на канал