Два дня. Коммит висит в ревью 48 часов. Разработчик нервно обновляет страницу GitHub. Тимлид завален митингами. CI/CD пайплайн простаивает. Знакомая картина? В нашей команде из 40 человек среднее время ревью было 1.8 дня. После внедрения мультиагентной системы — 14 минут 37 секунд. И это не предел.
Почему традиционное ревью буксует? Очередь, переключение контекста, страх пропустить баг. Человек не может одновременно помнить все соглашения и антипаттерны. Агент — может.
Один LLM против оркестра: почему мультиагентка?
Запустить один ChatGPT на дифф — идея красивая, но провальная. Один агент пытается быть и линтером, и архитектором, и экспертом по безопасности. Он выдыхается на длинном контексте, начинает галлюцинировать или зацикливаться — подробно мы разбирали это в статье «Проклятие длинного контекста». Мультиагентная система разбивает задачу на специализированные роли: каждый агент смотрит только на свою зону ответственности. Результат — выше точность, меньше токенов, быстрее ответ.
В нашем пайплайне работают четыре агента-ревьюера и один оркестратор. Каждый настроен на узкую задачу. Это не банальная цепочка вызовов — это полноценная мультиагентная система с обратной связью и разрешением конфликтов. Как мы пришли к такой архитектуре — читайте в материале «Как построить AI-агента: уроки из провала».
Пять ролей, которые заменили очередь из пяти сеньоров
Вот как распределены обязанности в нашей системе (используем последнюю версию Claude Code на июль 2026 как рантайм для каждого агента, а оркестрацию построили на LangGraph):
| Агент | Задача | Среднее время |
|---|---|---|
| Линтер (стиль + формат) | Проверяет code style, форматирование, лишние зависимости | 2 мин |
| Архитектор | Следит за SOLID, паттернами, разбиением на модули | 4 мин |
| Секьюрити | Ищет SQL-инъекции, XSS, утечку ключей | 3 мин |
| Тест-агент | Анализирует покрытие, предлагает недостающие кейсы | 3 мин |
| Оркестратор | Собирает замечания, удаляет дубли, формирует финальный отчет | 2.5 мин |
Агенты запускаются параллельно после первого линтинга, а оркестратор — последовательно после всех. Такой конвейер укладывается в 14–15 минут благодаря тому, что модель (Claude 4 Opus?) держит контекст каждого агента коротким и не перегружает его всем диффом целиком. Подробнее о том, как мы настраивали модели для экономии токенов, — в гайде «10 незаменимых настроек Claude Code».
Конвейер ревью на практике: YAML, который всё запускает
Кто работал с GitHub Actions + кастомными агентами, знает: вся дьявольщина в конфигурации. Мы используем обёртку вокруг Claude Code, которая стартует субагентов по требованию. Вот как выглядит основа (актуально на Q2 2026):
name: Multi-Agent Review
on: [pull_request]
jobs:
review:
runs-on: ubuntu-latest
steps:
- uses: actions/checkout@v4
- name: Run Security Agent
run: claude code --agent security --diff &> security.log &
- name: Run Architecture Agent
run: claude code --agent architecture --diff &> arch.log &
- name: Wait and Orchestrate
run: claude code --agent orchestrator --files security.log,arch.log,lint.log,test.log
Да, это упрощение — в реальности мы используем LangGraph с состоянием и механизмом handoffs, о котором писали в статье про handoffs и rollup’ы. А чтобы агенты не дрались друг с другом за изменения, ввели «sherlock-агента», который проверяет, не противоречат ли правки одного агента правкам другого. Это отдельная боль — читайте «Opcoden против Claude Code: архитектурные различия».
⚠️ Предупреждение: Не запускайте этот код в продакшн без обработки ошибок и таймаутов. Один из наших агентов как-то зациклился на правках отступов и нагенерировал 20 000 токенов — с тех пор у нас жёсткие лимиты на шаги. Пример такого безумия мы разбирали в кейсе «Qwen 3.5 сошел с ума».
Цифры, ради которых мы это затеяли
Через месяц после внедрения замерили метрики. Сравнивали с предыдущим кварталом, когда ревью делали только люди.
| Метрика | До (люди) | После (гибрид) |
|---|---|---|
| Среднее время ревью PR | 1.8 дня | 14.6 мин |
| PR без правок (человек одобрил) | 30% | 65% |
| Пропущенные баги на 100 PR | ~8 | ~6 |
| Общее время разработчиков на ревью (команда/день) | ~12 чел-ч | ~2 чел-ч |
Но было и два провала: когда мы полностью доверили принятие решений агентам (выключили человека из цикла). В одном случае агент «улучшил» код, сломав прод. Во втором — удалил обработку ошибок, посчитав её «избыточной». После этого мы ввели обязательную проверку сеньором перед мержем. Про это — хороший материал «Как не утонуть в техническом долге».
Подводные камни, о которых молчат вендоры
- Зацикливание агентов. Даже с таймаутами и лимитами шагов агент может уйти в бесконечный цикл, если его промпт плохо сформирован. Спасает только жёсткий лимит на количество вызовов инструментов и graceful shutdown.
- Контекстное загрязнение. Если агенты передают друг другу данные через артефакты, они начинают «переписываться» и плодить лишние комментарии. В статье «6 паттернов управления API-квотой» описан наш способ решить это через rate limit и очереди.
- Когнитивная нагрузка на разработчиков. Люди перестают вчитываться в замечания агента, тупо нажимают «Approve». Нужно заставлять их хотя бы бегло просматривать отчёт оркестратора.
Неочевидный совет, который сэкономит вам месяц
Не пытайтесь заменить человека в код-ревью полностью. Лучший подход — гибрид: агенты делают черновик, а человек тратит 5 минут на финальную проверку. Так вы получаете скорость ИИ и безопасность человеческого глаза. Начните с одного агента-линтера, добавьте архитектора через неделю, а секьюрити — когда команда привыкнет. Не делайте всё сразу — рискуете получить систему, которая генерирует больше шума, чем пользы.
Если хотите попробовать готовую оркестровку для мультиагентных систем, посмотрите Evolver — мы используем его для быстрой сборки пайплайнов. А для тонкой настройки конкретных агентов рекомендую изучить тулчейн Claude Code и субагенты — там показано, как переиспользовать код-агентов в других задачах.