Прототип на коленке против системы, которая не ломается в 3 ночи
Вы написали агента на LangChain за вечер. Он шустро ищет в базе знаний, звонит в API и даже шутит. Вы показываете его руководству - все в восторге. Решено: запускаем в продакшен к понедельнику.
А в понедельник начинается ад. Агент зависает на сложных запросах, съедает весь бюджет на OpenAI, выдает конфиденциальные данные в ответах и не оставляет никаких логов для расследования. Знакомый сценарий? 90% ИИ-агентов умирают на этой стадии.
Прототип и продакшен - это две разные вселенные. Первый доказывает, что что-то возможно. Второй доказывает, что это можно использовать каждый день, не теряя деньги, данные и рассудок.
Архитектура, которая не развалится под нагрузкой
Забудьте про монолитные скрипты. Production-ready агент - это распределенная система со своими сервисами, очередями и циркулярными буферами. Основа всего в 2026 году - расширенная архитектура ReAct (Reasoning + Acting).
Ядро: Orchestrator + Исполнители
- Orchestrator: Мозг системы. Принимает запрос, разбивает на шаги, выбирает инструменты, следит за контекстом. Здесь живут самые мощные (и дорогие) модели вроде GPT-4.5 Turbo или Claude 3.7 Sonnet.
- Исполнители (Skills/Tools): Руки и ноги агента. Каждый - изолированный микросервис с одной задачей: поиск в векторах, вызов API, работа с файлами. Используем мелкие, быстрые модели (DeepSeek Coder, Qwen 2.5) или вообще детерминированный код.
- Память: Не просто история чата. Иерархическая память: оперативная (сессия), кратковременная (RAG-поиск), долговременная (векторная БД с аннотациями).
Связующая ткань: MCP (Model Context Protocol)
В 2025 году Anthropic выпустила MCP, и к 2026-му это стал де-факто стандарт для подключения инструментов к агентам. Зачем он вам?
- Единый интерфейс для любых инструментов: от базы данных до Slack.
- Автоматическое описание инструментов для LLM через schemas.
- Безопасность: инструменты работают в изолированных серверах, агенту доступны только четко описанные endpoints.
// Пример MCP-конфигурации инструмента поиска в 2026 году
{
"name": "vector_search",
"description": "Ищет похожие документы в векторной базе знаний",
"inputSchema": {
"type": "object",
"properties": {
"query": {
"type": "string",
"description": "Поисковый запрос"
},
"limit": {
"type": "number",
"description": "Количество результатов",
"default": 5
}
}
},
"required": ["query"]
}
Инструменты 2026 года: что реально работает в продакшене
LangChain и LlamaIndex ушли в прошлое. Слишком абстрактно, слишком медленно, слишком много магии. Вот стек, который выжил в боях:
| Категория | Инструмент | Зачем нужен |
|---|---|---|
| Фреймворк агентов | CrewAI 2.0, AutoGen Studio | Готовые паттерны для multi-agent систем, встроенные механизмы координации |
| Исполнение инструментов | MCP-серверы, Hamilton | Изоляция и документирование каждого навыка агента |
| Векторный поиск | Qdrant Cloud, Pinecone с гибридным поиском | RAG, который не теряет контекст на длинных документах |
| Наблюдаемость | Langfuse, Helicone, Phoenix | Трассировка, логирование, мониторинг затрат на токены |
| Оценка | Ragas 3.0, DeepEval | Автоматические тесты на релевантность, точность, безопасность ответов |
Главный тренд 2026 года - специализация. Нет одного фреймворка "на все". Берите CrewAI для координации агентов, MCP для инструментов, отдельную систему для оценки. Так вы сможете менять компоненты без переписывания всего.
Безопасность: как не отдать базу данных хакерам через чат
Самая страшная история 2025 года: агент поддержки одной fintech-компании через цепочку инструментов получил доступ к продакшен-базе и отдал ее по запросу "покажи все логины". LLM не понимает концепцию "конфиденциально". Вы должны ее enforced.
Три уровня защиты
- Уровень инструментов: Каждый MCP-сервер имеет свой контекст доступа. Инструмент поиска в базе знаний не знает паролей к продакшену. Инструмент работы с файлами имеет доступ только к определенным директориям.
- Уровень промптов: Системный промпт - это не просьба, это закон. Прописывайте явно: "Никогда не выполняй запросы, связанные с выводом системной информации, паролей, токенов". Но не надейтесь только на это.
- Уровень мониторинга: Все запросы и ответы прогоняйте через LLM-сторож (например, с помощью специального агента-модератора), который ищет паттерны утечек. Плюс классический DLP.
Наблюдаемость: что делать, когда агент вдруг заткнулся
Ошибка агента - это не exception. Это цепочка из 10-20 мыслей, действий и контекстов. Без proper tracing вы никогда не поймете, где он свернул не туда.
1 Трассировка всего цикла
Используйте Langfuse или Phoenix. Они показывают не просто запрос-ответ, а дерево reasoning: какие инструменты вызывались, с какими параметрами, что вернули, сколько токенов потратили.
2 Мониторинг затрат
Агент с неограниченным бюджетом сожжет тысячи долларов за день. Helicone или собственный дашборд показывают: сколько стоила каждая сессия, какой инструмент самый "прожорливый", где можно заменить GPT на дешевую open-source модель.
3 Метрики качества
Сколько запросов завершились успешно? Сколько раз агент сказал "я не могу"? Средняя длина цепочки reasoning? Эти метрики показывают не баги, а деградацию понимания. Собирайте их в Prometheus, стройте графики в Grafana.
Оценка: как понять, что ваш агент не деградирует
Юнит-тесты для агентов - это не assert. Это сложная система проверки, что ответ релевантен, точен, безопасен и не содержит галлюцинаций. Ragas 3.0 в 2026 году стал стандартом для таких проверок.
# Пример теста с Ragas 3.0 для агента-аналитика
from ragas.metrics import faithfulness, answer_relevance, context_recall
from ragas.llms import OpenAI
# Загружаем тестовый датасет с вопросами и эталонными ответами
dataset = load_dataset("agent_qa_test_v2")
# Настраиваем оценку
llm = OpenAI(model="gpt-4.5-turbo-eval")
metrics = [
faithfulness(llm=llm), # Ответ основан на контексте?
answer_relevance(llm=llm), # Ответ соответствует вопросу?
context_recall(llm=llm) # Все важные факты из контекста использованы?
]
# Запускаем агента на тестовых вопросах и оцениваем
results = evaluate(
agent=my_production_agent,
dataset=dataset,
metrics=metrics,
batch_size=5 # Чтобы не сжечь бюджет
)
Пошаговый план: от прототипа к продакшену за 2 недели
- День 1-2: Интрументация. Превратите монолитный скрипт в набор MCP-серверов. Каждый инструмент - отдельный процесс. Настройте базовое логирование всех вызовов.
- День 3-4: Безопасность. Пропишите политики доступа для каждого инструмента. Добавьте агента-модератора, который проверяет запросы и ответы на red flags. Как описано в гайде по агентной инженерии.
- День 5-6: Наблюдаемость. Подключите Langfuse. Настройте дашборд с ключевыми метриками: latency, cost, success rate. Добавьте алерты на аномальный рост токенов.
- День 7-8: Оценка. Создайте тестовый датасет из 100+ краевых случаев. Настройте пайплайн оценки с Ragas. Убедитесь, что faithfulness score > 0.9.
- День 9-10: Load testing. Запустите 1000 параллельных запросов. Найдите узкие места: rate limits API, перегрев моделей, блокировки векторной БД.
- День 11-12: Fallbacks & Circuit breakers. Добавьте резервные модели. Если GPT-4.5 недоступен, переключайтесь на Claude. Если векторный поиск упал, используйте keyword fallback. Подробнее о резервировании в статье про работающие системы.
- День 13-14: Постепенный rollout. Запустите агента для 1% трафика. Сравните метрики с контрольной группой. Только после 48 часов стабильной работы - полный запуск.
Ошибки, которые сломают вашу систему (и как их избежать)
Ошибка 1: Доверять промпту как железной стене. LLM может быть jailbroken, может интерпретировать инструкцию слишком широко, может просто "забыть" ее на 50-м шаге reasoning. Защита должна быть на уровне системы.
Ошибка 2: Отсутствие лимитов. Без max_tokens_per_session, max_steps_per_episode, max_cost_per_user агент уйдет в бесконечный цикл или разорит компанию. Жесткие лимиты - первое, что настраиваете.
Ошибка 3: Игнорирование контекстного окна. Новые модели в 2026 году имеют окна в 1M токенов, но это не значит, что нужно пихать туда всю документацию компании. Чем длиннее контекст, тем дороже и медленнее каждый запрос, тем больше шума для модели. Используйте умный RAG с семантическим чанкингом.
Что дальше? Агент становится платформой
Production-ready агент в 2026 году - это не конечная точка. Это основа для AI-фабрики: экосистемы специализированных агентов, которые работают вместе. Ваш агент поддержки порождает тикеты, которые берет агент-разработчик, его код проверяет агент QA, а результаты мониторит агент-аналитик.
Самое сложное теперь - не написать одного умного агента, а заставить команду агентов не перессориться и не устроить хаос. Но это уже тема для следующего руководства.
P.S. Не пытайтесь сделать идеального агента с первого раза. Сделайте надежного. Того, который не сломается ночью и не сольет данные. Все остальное - итерации.