Бенчмарк VAKRA для AI-агентов: анализ ошибок и решения | 2026 | AiManual
AiManual Logo Ai / Manual.
15 Апр 2026 Инструмент

VAKRA: почему AI-агенты путаются в трёх API и как это исправить

Глубокий разбор бенчмарка VAKRA от IBM Research: где ошибаются современные AI-агенты, типы задач и практические советы для разработчиков.

Ваш агент прошёл все тесты. А потом сломался на реальном API

Вы тестировали его на сотнях промптов, настраивали RAG, добавляли инструменты. В симуляции всё работало. А в реальности агент не может выполнить цепочку из трёх простых вызовов API. Знакомо? IBM Research знает.

💡
VAKRA (Versatile Agent Knowledge Reasoning Assessment) — это бенчмарк, который запускает AI-агентов в исполняемом окружении с реальными инструментами. Не симуляция, а настоящие вызовы API, работа с документами и композиционные задачи. Последняя версия на 15.04.2026 — VAKRA 2.1 с расширенным набором задач на работу с динамически меняющимися данными.

IBM выпустила VAKRA в марте 2026 года. Идея проста до гениальности: дать агенту набор инструментов (поиск, калькулятор, API базы данных) и сложную задачу, которая требует их комбинации. Например, "найди в документации максимальную нагрузку системы, рассчитай запас прочности для текущих показателей и отправь отчёт в Slack". Звучит просто? Для человека — да. Для агента — ад.

Типы задач в VAKRA, которые ломают даже GPT-5

Разработчики VAKRA не стали изобретать велосипед. Они взяли реальные сценарии, где агенты проваливаются в продакшене, и упаковали их в тесты.

  • API-chaining (цепочки вызовов): агент должен сделать несколько последовательных запросов, где выход одного — вход для другого. Точка отказа — 97% агентов теряют контекст между вызовами.
  • Документальный поиск с верификацией: найти информацию в PDF, сравнить с данными из API, выявить противоречия. Современные RAG-системы здесь бессильны — они ищут, но не анализируют.
  • Динамическое планирование: задача меняется в процессе выполнения. Агент получает новые данные и должен адаптировать план. Spoiler: не адаптирует.
  • Инструментальный конфликт: два инструмента дают противоречивые результаты. Агент должен определить, какой доверять. Чаще всего он доверяет первому.
Тип задачи Точность GPT-5 (последняя версия 2026) Точность Claude 4.5 Opus Главная ошибка
API-chaining (3+ звена) 34% 41% Потеря промежуточных результатов
Документ + API верификация 22% 38% Слепое доверие первому источнику
Динамическое перепланирование 18% 27% Жёсткая привязка к первоначальному плану

Цифры на таблице — не теоретические. Это результаты запуска на реальных моделях в апреле 2026 года. GPT-5, который все хвалят за рассуждения, справляется лишь в каждом третьем случае. Claude 4.5 Opus немного лучше, но всё равно проваливает большинство задач.

Почему они ошибаются? Три фундаментальные дыры

Исследователи IBM разобрали тысячи провальных выполнений. Оказалось, что ошибки не случайны. Они системные.

1 Слепота к состоянию окружения

Агент вызывает инструмент, получает результат, и... забывает его. Когда через два шага нужны эти данные, он либо вызывает инструмент заново (если повезёт), либо подставляет случайные значения. Проблема в архитектуре памяти. Большинство фреймворков для оркестрации агентов хранят историю как простой текст. Агент должен сам выцеплять оттуда нужные значения. Не выцепляет.

Пример провала из VAKRA: агент ищет в документации порог нагрузки системы (находит 85%), затем запрашивает текущую нагрузку через API (получает 72%). Дальше нужно рассчитать запас. Агент забывает оба числа и запрашивает их снова. Но документация статична, а нагрузка динамична — вторым запросом он получает 74%. Расчёт идёт с неконсистентными данными. Результат неверный.

2 Неспособность к композиционному рассуждению

LLM обучались на текстах, где рассуждения линейны. В реальных задачах нужно комбинировать информацию из разных источников, делать выводы, которые явно не указаны. VAKRA показывает: агенты отлично работают с одним инструментом. С двумя — уже хуже. С тремя — катастрофа.

Это напрямую связано с проблемами в мультиагентных системах. Но здесь всё происходит в одной голове. Агент не может держать в фокусе несколько контекстов одновременно. Он решает подзадачи изолированно, а потом пытается склеить результаты. Не склеивает.

3 Хрупкое планирование

Агент строит план до начала выполнения. Если в процессе что-то идёт не так (API возвращает ошибку, данные не те), он либо слепо следует плану, либо паникует и начинает случайные действия. Адаптивность близка к нулю.

В этом VAKRA пересекается с выводами ODCV-Bench. Там агенты нарушали правила ради KPI. Здесь они не могут изменить правила игры, когда окружение меняется. Оба случая — симптомы одной болезни: жёсткая оптимизация под ожидаемый сценарий.

VAKRA против других бенчмарков: что выбрать в 2026?

ITBench проверяет IT-задачи, ODCV-Bench — склонность к нарушению правил, APEX-Agents — офисную работу. VAKRA уникален в двух вещах.

  • Исполняемое окружение: это не симуляция. Инструменты реальные. Если агент отправит неправильный запрос к API, он получит реальную ошибку 400. Это максимально близко к продакшену.
  • Фокус на композиции: не просто "вызови инструмент", а "скомбинируй три инструмента, чтобы получить ответ, которого нет ни в одном из них".

Но у VAKRA есть и слабые места. Он сложен в настройке (требует развёртывания сервисов). Мало задач, связанных с долгосрочной памятью. И он не проверяет безопасность — для этого есть ODCV-Bench.

💡
Практический совет: если вы разрабатываете агента для работы с внешними API (интеграции, автоматизация бизнес-процессов), запустите его сначала на VAKRA. Вы увидите ошибки, которые никогда не проявятся в unit-тестах. Код и инструкции по развёртыванию — на GitHub IBM.

Кому сейчас нужен VAKRA? (Подсказка: не всем)

Если вы только начинаете разрабатывать AI-агентов, VAKRA вас убьёт. Слишком сложный, слишком требовательный. Но есть три категории разработчиков, которым он необходим.

  1. Команды, которые строят агентов для продакшена. Особенно если эти агенты работают с цепочками API (платежи, данные из CRM, отправка уведомлений). VAKRA покажет, где агент сломается в реальной работе.
  2. Исследователи, которые улучшают архитектуры агентов. Хотите протестировать новую систему памяти или механизм планирования? VAKRA даст чёткие метрики, лучше ли ваше решение.
  3. Компании, которые выбирают LLM для агентов. Тесты на VAKRA покажут, какая модель (GPT-5, Claude 4.5, Gemini Ultra 2.5, Llama 4 405B) лучше справляется с композиционными задачами. Разница в 10-15% в точности — это миллионы долларов на ошибках в автоматизации.

Что дальше? Прогноз от тех, кто видел все ошибки

Разработчики VAKRA в IBM не просто создали бенчмарк. Они выявили ахиллесову пяту современных агентов. И теперь работают над её устранением.

В планах на конец 2026 года — расширение VAKRA для тестирования агентов как сотрудников в длительных сессиях (дни, недели). Добавление задач на коллаборацию нескольких агентов. И самое важное — интеграция с реальными облачными сервисами (AWS, Azure), чтобы тесты были не на стендовых API, а на живых.

Мой совет? Не ждите, пока IBM всё сделает. Скачайте VAKRA сейчас, запустите на своих агентах. Увидите, как они путаются в трёх API. А потом перечитайте архитектурные принципы и добавьте жёсткий контроль состояния. Потому что без этого ваш агент — просто дорогой чат-бот.

Подписаться на канал