Почему контекст ломает 90% агентов и как два подхода пытаются это исправить
Запускаешь агента анализировать код. Через 20 минут он забывает, зачем начал, и обсуждает философию. Знакомо? Это не глюк модели – это провал архитектуры. Контекстная память в LLM-агентах – самая большая техническая проблема 2026 года.
Два лагеря спорят до хрипоты. С одной стороны – детерминированные системы типа RLM (Recursive Language Model). С другой – вероятностные архитектуры вроде Hermes Agent. Первые строят агентов как clockwork-машины, вторые – как живые организмы. Кто прав? Давайте разбираться без хайпа.
RLM: железная дисциплина рекурсивных цепочек
Представь строгого немецкого инженера. Каждый винтик на месте, каждый процесс документирован. Это RLM. Архитектура, где главный агент-оркестратор не работает – он управляет.
1Как работает RLM под капотом
Оркестратор получает задачу «проанализировать 500 файлов». Вместо того чтобы грузить всё в контекст GPT-4.5 (что стоило бы $50 за вызов), он:
- Разбивает на подзадачи: «проанализировать директорию /src», «проверить зависимости», «найти security issues»
- Для каждой подзадачи создаёт суб-агента с чистым контекстом (zero history)
- Суб-агент выполняет только свою задачу, не зная о других
- После выполнения суб-агент уничтожается – его контекст умирает
- Оркестратор собирает результаты, принимает решение: задача решена или нужна deeper рекурсия
Важно на 2026 год: современные RLM-реализации используют GPT-4.5 Turbo для оркестрации (он лучше планирует), а суб-задачи отдают специализированным моделям – например, Gemini 3 Flash для кода или Claude 3.7 Haiku для текста. Экономия на контексте достигает 80%.
2Сильные стороны RLM, которые никто не оспаривает
- Нет контекстного дрейфа – каждый суб-агент стартует с чистого листа. Забыть цель физически невозможно.
- Детерминированность – на одних и тех же данных получаешь одинаковый результат. Для fintech и медицины это must-have.
- Масштабирование контекста до бесконечности – обрабатываешь миллион документов? Просто создашь больше суб-агентов. Контекст оркестратора остаётся маленьким.
- Отладка как в программировании – каждый суб-агент можно логировать, тестировать, перезапускать. Провалилась одна задача – не падает вся система.
Но есть и обратная сторона. RLM напоминает бюрократическую систему – всё правильно, но медленно и негибко. Если задача требует креативности или адаптации к неизвестному, оркестратор начинает плодить суб-задачи как сумасшедший.
Hermes Agent: хаос как стратегия
А теперь представь startup из Кремниевой долины. Нет строгих процессов, есть общая цель и команда, которая импровизирует. Hermes Agent (актуальная версия 2.8 на март 2026) построен на вероятностном планировании.
1Философия Hermes: контекст – это живая ткань
Hermes не убивает контекст после каждой задачи. Он поддерживает единое пространство памяти, где агенты:
- Общаются между собой напрямую (peer-to-peer, а не через оркестратор)
- Оставляют «ментальные заметки» в shared memory
- Конкурируют за ресурсы – самый релевантный агент получает право действовать
- Учатся на истории взаимодействий (да, Hermes 2.8 добавил reinforcement learning)
Архитектура похожа на нейронную сеть – много связей, активации, обратные связи. Контекст не чистый – он «загрязнён» историей. Но именно это позволяет находить неочевидные связи.
2Когда Hermes блестит, а когда тускнеет
Ситуация: нужно придумать маркетинговую стратегию для нового продукта. RLM разобьёт на 10 суб-задач: анализ рынка, портрет клиента, каналы продвижения… Каждая будет выполнена идеально, но общая картина может потеряться.
Hermes соберёт агентов-маркетолога, копирайтера, аналитика в одну «комнату». Они начнут спорить, генерировать идеи, одна мысль будет цеплять другую. Результат – неожиданная креативная стратегия, которую не спланируешь детерминированно.
Но за это платишь. Hermes может уйти в бесконечные дискуссии (агенты начинают «болтать»). Контекст раздувается, стоимость API-вызовов растёт. Иногда система выдаёт гениальное решение, иногда – полную чушь. Предсказуемость близка к нулю.
Сравнительная таблица: что выбрать для своего проекта
| Критерий | RLM (Recursive Language Model) | Hermes Agent 2.8 |
|---|---|---|
| Управление контекстом | Изолированные контексты, уничтожаются после задачи | Единая shared memory с историей взаимодействий |
| Детерминированность | Высокая – одинаковые входы = одинаковые выходы | Низкая – вероятностное планирование, emergent behavior |
| Масштабируемость | Линейная – больше задач = больше суб-агентов | Нелинейная – может упираться в память, но лучше для сложных связей |
| Стоимость (на 100к токенов) | ~$0.80 (эффективное использование контекста) | ~$1.20-$2.00 (контекст больше, больше вызовов) |
| Лучшая модель для оркестрации (2026) | GPT-4.5 Turbo (планирование) + специализированные модели для суб-задач | Claude 3.7 Sonnet (длинный контекст, понимание нюансов) или Gemini 3 Pro |
| Идеальный use case | Анализ кода, обработка документов, ETL-пайплайны, compliance checks | Креативные задачи, исследовательские проекты, стратегическое планирование, диалоговые системы |
Гибридный подход: секретное оружие 2026 года
Умные команды не выбирают одну архитектуру. Они комбинируют. Например, используют RLM для обработки сырых данных, а Hermes – для генерации insights. Вот как это выглядит на практике:
- RLM-оркестратор чистит и структурирует 1000 документов (детерминированно, дёшево)
- Сжатые результаты передаются в Hermes-систему с 3-4 агентами
- Агенты Hermes дискутируют, находят инсайты, генерируют гипотезы
- Лучшие гипотезы возвращаются в RLM для валидации и исполнения
Такой pipeline даёт и стабильность, и креативность. Реализовать его проще с помощью AgentHub, который поддерживает оба подхода в едином API. Кстати, если ненавидишь настраивать SDK для каждого провайдера – это твой выбор.
Предупреждение: Гибридная архитектура – не silver bullet. Ты добавляешь сложность оркестрации. Нужно чётко разделять зоны ответственности, иначе получишь монстра, который объединяет недостатки обоих подходов.
5 ошибок, которые сломают твою систему независимо от архитектуры
Видел десятки провальных внедрений. Вот что убивает агентов чаще всего:
- Игнорирование latency суб-агентов. Создал 100 суб-агентов RLM? Они будут запускаться последовательно и займут час. Решение – пул воркеров и параллельное выполнение.
- Отсутствие circuit breaker в Hermes. Агенты зациклились в дискуссии? Нужен механизм принудительной остановки после N итераций.
- Хранение всего контекста в памяти модели. На 2026 год best practice – векторизация долгосрочной памяти + кэширование. Модель должна работать с релевантными чанками.
- Использование одной модели для всего. GPT-4.5 – круто, но для простых классификаций бери GPT-4o-mini. Экономия 10x.
- Отсутствие human-in-the-loop для критических решений. Ни RLM, ни Hermes не идеальны. Всегда оставляй кнопку «стоп» и возможность корректировки.
Если избежишь этих ловушек, твои агенты проживут дольше, чем 80% продакшен-систем. Кстати, про продакшен – почитай разбор сбоев многоагентных систем, там много конкретики.
Что будет дальше? Прогноз на 2027
Детерминированные и вероятностные подходы не сольются. Они специализируются. К 2027 году увидим:
- RLM-спецпроцессоры – аппаратное ускорение для рекурсивных цепочек (уже эксперименты у NVIDIA)
- Hermes с эмоциональным интеллектом – агенты будут оценивать «настроение» контекста и адаптировать стиль общения
- Стандартизацию протоколов обмена между агентами – сейчас каждый фреймворк изобретает свой велосипед
- Квантовые агенты – звучит как фантастика, но Google уже тестирует квантовые схемы для планирования задач
Мой совет – не зацикливайся на одной архитектуре. Создавай абстракции, чтобы можно было переключаться между RLM и Hermes в зависимости от задачи. И обязательно смотри в сторону оркестраторов нового поколения, которые скрывают сложность (партнерская ссылка, но честно – инструмент стоит того).
А теперь вопрос на засыпку: что важнее для твоего проекта – предсказуемость как у швейцарских часов или креативность как у безумного учёного? Ответ определит выбор архитектуры. Удачи.