Исследование команд ИИ-агентов: когда они вредят вместо помощи | AiManual
AiManual Logo Ai / Manual.
02 Янв 2026 Новости

Когда команды ИИ-агентов вредят вместо помощи: исследование разбивает главный миф

Новое исследование показывает: команды ИИ-агентов часто дают худшие результаты, чем одиночные агенты. Парадокс коллективного тупизма.

Больше не значит лучше. Иногда больше значит "сломать все"

Последний год в AI-сообществе только и говорят о мультиагентных системах. Кажется, каждый второй стартап хвастается своей "командой ИИ-агентов", которые "работают слаженнее людей". Исследование из Стэнфорда и MIT разбивает этот миф вдребезги.

Оказывается, в 37% случаев команды ИИ-агентов принимают решения хуже, чем один агент. Не просто немного ошибаются - они производят катастрофически неверные результаты, которые одиночный агент никогда бы не допустил.

Парадокс коллективного тупизма: чем больше ИИ-агентов в команде, тем выше вероятность, что они договорятся до полной ерунды.

Как исследователи ломали ИИ-команды

Ученые взяли три типа задач: анализ кода, планирование проекта и логические головоломки. Для каждой задачи создали три сценария: один агент, команда из трех агентов и команда из пяти агентов. Все агенты - GPT-4, одинаково настроенные.

Тип задачиОдин агент3 агента5 агентов
Анализ кода87% правильных74% правильных52% правильных
Планирование91% правильных82% правильных61% правильных
Логические задачи79% правильных65% правильных43% правильных

Цифры говорят сами за себя. Каждый дополнительный агент увеличивает шанс на провал. Неужели ИИ-агенты глупеют в коллективе?

Почему команды ИИ-агентов тупеют вместе

Исследователи выделили три главные причины:

  • Эхо-камера ошибок: один агент делает небольшую ошибку. Второй ее не замечает (потому что тоже ИИ, а не человек-рецензент). Третий принимает как факт. К пятому агенту первоначальная ошибка превращается в фундаментальную истину системы.
  • Консенсус через упрощение: чтобы договориться, агенты ищут общий знаменатель. Вместо сложного правильного решения выбирают простое неправильное. Потому что проще согласиться на ерунду, чем спорить.
  • Потеря ответственности: как в реальных командах - когда все отвечают, никто не отвечает. Агенты начинают перекладывать сложные части задачи друг на друга. В итоге эти части остаются нерешенными.

"Мы ожидали, что команды будут лучше справляться со сложными задачами," - говорит один из авторов исследования. "Вместо этого получили эффект обратный. Чем сложнее задача, тем хуже работают команды. Они не дополняют друг друга - они умножают ошибки."

💡
Если вы думаете, что ваши ИИ-агенты работают в команде как сотрудники в офисе, вы заблуждаетесь. У них нет интуиции, которая подсказывает, когда коллега несет чушь.

Проблема с README для команд

Отдельное исследование провели по инструкциям. Казалось бы: напиши четкие README для ИИ-агентов, и все будет работать. В командах это не помогает.

Проблема в интерпретации. Каждый агент понимает инструкции по-своему. Когда они начинают обсуждать задачу, возникает спор о том, как правильно понять требования. Вместо решения задачи агенты спорят о семантике.

# Пример: инструкция "проверь код на уязвимости"
# Агент 1 понимает как: проверь SQL-инъекции
# Агент 2 понимает как: проверь XSS
# Агент 3 понимает как: проверь конфигурацию сервера
# В итоге: каждый делает свою часть, но полной проверки нет

Исследователи провели тест: дали команде из трех агентов задачу с неоднозначной инструкцией. 68% времени агенты потратили на обсуждение того, что значит инструкция. 32% - на собственно решение. И это в лучшем случае.

Когда команды все-таки работают

Не все так плохо. Исследование показало, что есть два сценария, где команды ИИ-агентов действительно эффективнее одиночек:

  1. Параллельные независимые задачи: когда каждый агент делает свою часть, и эти части не пересекаются. Например: один пишет фронтенд, другой - бэкенд, третий - тесты. Главное - не давать им обсуждать архитектуру.
  2. Простые задачи с четким workflow: когда есть пошаговый процесс, и каждый агент отвечает за свой шаг. Как конвейер. Но даже здесь нужен жесткий контроль - иначе агенты начинают "оптимизировать" процесс друг за друга.

Проблема в том, что большинство стартапов продают именно "интеллектуальные команды", которые "совместно решают сложные задачи". Исследование говорит: это маркетинг. Такие команды чаще ломают, чем чинят.

Что делать разработчикам

Если вы все еще хотите использовать команды ИИ-агентов после этого исследования (а многие захотят, потому что это модно), вот что советуют авторы:

Создайте "арбитра" - отдельного агента, который не участвует в обсуждении, а только оценивает результат. Его задача - сказать: "Ребята, вы договорились до ерунды, начинайте сначала."

Еще один совет: используйте Agent Skills не для всех агентов одинаково. Специализируйте. Один агент - эксперт по безопасности, другой - по производительности. Но никогда не давайте им одинаковые роли.

И главное: тестируйте. Сравнивайте результаты команды и одиночного агента на одних и тех же задачах. Если команда показывает результат хуже на 15% и более - зачем она нужна?

Маркетинг против реальности

Индустрия ИИ-агентов сейчас напоминает золотую лихорадку. Каждый второй продукт обещает "команду экспертных ИИ-агентов". Исследование ставит под сомнение саму концепцию.

"Мы не говорим, что команды ИИ-агентов бесполезны," - уточняют авторы. "Мы говорим, что их полезность сильно преувеличена. И что в большинстве случаев вы получаете более сложную, более дорогую и менее надежную систему."

Это особенно важно для таких областей, как DevOps для ИИ, где ошибки стоят дорого. Хотите, чтобы пять ИИ-агентов "совместно" чинили вашу продовлайновую инфраструктуру? После этого исследования такое желание выглядит как форма суицида.

💡
Прежде чем внедрять мультиагентные AI-команды, подумайте: вам действительно нужна сложная система, или вы просто хотите сказать на презентации "у нас команда ИИ-агентов"?

Что будет дальше

Исследование уже вызвало волну в академическом сообществе. Многие разработчики признаются: "Мы тоже заметили, но боялись сказать вслух. Все вокруг так восторгаются командами."

Ожидайте две реакции от индустрии:

  • Одни начнут совершенствовать архитектуру команд, пытаясь решить проблемы, которые выявило исследование.
  • Другие будут игнорировать и продолжать продавать "волшебные команды", пока не грянет скандал. Как с Solar-100B или IQuest-Coder-V1.

Мой прогноз: через год мы увидим новый тренд. Не "больше агентов", а "умнее архитектура". Возможно, даже возврат к проверенному подходу: один умный агент с хорошими инструментами вместо пяти глупых, которые мешают друг другу.

А пока - если видите продукт, который хвастается "командой из 10 ИИ-агентов", спросите у разработчиков: а тестировали ли вы, не тупеют ли они вместе? Большинство промолчит. Потому что не тестировали.