VAKRA: анализ ошибок AI-агентов в многошаговых задачах — 2026

Ваш агент прошел все тесты. Потом вы дали ему настоящую задачу — и он сломался на третьем вызове API. Знакомо? VAKRA — это бенчмарк, который превращает этот сценарий в науку. И результаты пугают: 97% агентов теряют контекст между шагами. Даже GPT-5 проваливает цепочки из четырех действий.

VAKRA 2.1: не симуляция, а ад реальных вызовов

IBM Research выпустила VAKRA в марте 2026, и уже к середине апреля догнали до версии 2.1. Разница с другими бенчмарками? Здесь агент работает в исполняемом окружении с живыми инструментами: настоящие API для поиска, калькулятор, базы данных, Slack-интеграция. Никаких симуляций — чистый продакшен.

Разработчики не стали выдумывать абстрактные задачки. Они взяли реальные кейсы, на которых агенты стабильно валятся. И упаковали их в четыре типа задач — каждый из них вскрывает определённую слабость современных LLM.

Четыре круга ада: где именно ломаются модели

API-цепочки: потеря контекста на 2-3 шаге

Самая хлесткая статистика VAKRA: 97% агентов теряют контекст между вызовами API. Задача: получить ID пользователя из одного сервиса, подставить его в другой, отфильтровать данные, рассчитать метрику, отправить результат. Звучит просто? Для человека — да. Для LLM — катастрофа.

Модели запоминают предыдущий ответ, но путают, что именно с ним делать. GPT-5 выдает корректный intermediate output в 68% случаев на первом шаге, но уже к третьему точность падает до 23%. У Claude 4.5 Opus — 18% на третьем шаге. Gemini Ultra 2.0 — едва дотягивает до 12%.

Почему? LLM не имеют встроенной «рабочей памяти» для промежуточных результатов. Они генерируют ответ на основе предыдущего токена, а не на структуре цепочки. Это как если бы вы решали уравнение, каждый раз забывая предыдущую строчку.

Документальный поиск с верификацией: RAG не спасает

Задача: прочитать PDF с документацией, найти максимальную нагрузку системы, сравнить с данными из мониторинга и выявить противоречия. Современные RAG-системы находят куски текста, но не анализируют их на конфликт. Точность GPT-5 на этом типе задач — 34%.

Claude 4.5 Opus чуть лучше — 38%, но всё равно проваливается, когда в документации есть два противоречивых абзаца. Модель выбирает первый попавшийся, не проверяя согласованность. Это напоминает мне инцидент с Replit, где агент проигнорировал альтернативные решения.

Динамическое планирование: «план больше недействителен, но я всё равно его выполняю»

Тип задачи, где агент начинает выполнение, а в середине окружение меняется (появляются новые данные, меняются параметры). Ни одна модель не смогла адаптировать план в VAKRA 2.1. GPT-5 продолжает идти по старому сценарию, игнорируя новые контекстные сигналы. Точность — 4%.

Это проблема, близкая к описанной в таксономии MAST — ошибки категории Action: агент выполняет запланированные действия, но они становятся неактуальны.

Инструментальный конфликт: доверие первому ответу

Два инструмента дают противоречивые результаты. Например, API возвращает 100, а база данных — 95. Агент должен определить, какому источнику доверять. В VAKRA 84% агентов безоговорочно принимают первый ответ и игнорируют второй. GPT-5 справляется в 27% случаев — но только если явно указано правило приоритета. Без подсказки — 11%.

💡

Трюк с верификацией из статьи про Qwen3.5 на SWE-bench — добавить шаг проверки согласованности ответов — поднимает точность до 44% даже на GPT-5.

Почему это происходит: когнитивная перегрузка без «рабочей памяти»

Авторы VAKRA в своём отчёте выделяют три корневых причины:

Слабая контекстная привязка — модели не удерживают промежуточные состояния между шагами. Это не ошибка внимания, а фундаментальное ограничение архитектуры transformer.
«Иллюзия понимания» — LLM генерируют связные рассуждения, но не проверяют, соответствуют ли их действия реальным выводам из предыдущих шагов.
Алгоритмическая иерархия — большинство моделей обучены на последовательных задачах, а не на деревьях решений с возвратами.

Интересно, что небольшие модели (до 7B параметров) показывают на этом бенчмарке сопоставимые с гигантами результаты — они просто не умеют генерировать длинные рассуждения и не строят ложных планов. Маленькие, но дерзкие.

Что дальше: нужны не более умные модели, а новая архитектура

VAKRA не просто констатирует провал. Он указывает направление — без встроенного механизма верификации и рабочей памяти агенты останутся игрушками. ABC-Bench показал, что с настройкой окружения тоже проблемы. А ODCV-Bench — что агенты нарушают правила, чтобы угодить. VAKRA добавляет к этому списку неспособность к многошаговой композиции.

Прогноз: в ближайшие два года появятся гибридные архитектуры (LLM + внешний планировщик + рабочая память). Некоторые команды уже экспериментируют с графовыми планерами поверх GPT-5. Но пока — если ваш агент должен сделать больше двух вызовов API подряд, подготовьтесь к падению.

Совет: тестируйте агентов не на отдельных промптах, а на цепочках. VAKRA даёт готовые сценарии. И да, возможно, стоит добавить шаг верификации — как в CAR-bench показали, агенты врут, чтобы вам понравиться. Лучше пусть ошибка будет явной, чем незаметной.

Подписаться на канал

97% агентов проваливают цепочки: что вскрыл бенчмарк VAKRA в 2026 году