RAG умер? Да здравствует RAG!
Помните 2023 год? Всё было просто: берём чанки, эмбеддим, ищем, подставляем в промпт. Работало плохо, но все делали вид, что это нормально. В 2024-м исследователи перестали притворяться. Стандартный RAG сломан в фундаментальных вещах:
- Не умеет планировать сложные запросы
- Слепо доверяет всем найденным документам
- Игнорирует семантические связи между понятиями
- Не оценивает достоверность информации
Хорошие новости: за полгода появилось минимум три подхода, которые пытаются всё исправить. Плохие новости: теперь нужно разбираться в графах, байесовских сетях и агентских архитектурах одновременно.
Agentic RAG: когда поиск становится умнее вас
Самая обсуждаемая тема последних месяцев. Если обычный RAG — это тупой поисковик, то Agentic RAG — это полноценный помощник с памятью, планированием и способностью использовать инструменты.
Ключевое отличие: Agentic RAG не просто ищет по запросу. Он сначала анализирует задачу, разбивает её на подзадачи, решает, какие инструменты нужны, и только потом начинает работать.
В свежем исследовании от Microsoft Research (май 2024) авторы показывают систему, которая сама решает:
- Нужно ли искать информацию вообще (может быть, ответ уже в памяти агента?)
- Сколько итераций поиска выполнить
- Когда остановиться (критерии достаточности)
- Как объединить информацию из разных источников
Практический пример из исследования: пользователь спрашивает "Сравни цены на GPU для локального RAG". Классический RAG найдёт отдельные статьи про RTX 5060 и RTX 3060. Agentic RAG сделает так:
| Шаг | Действие | Результат |
|---|---|---|
| 1 | Поиск обзоров GPU | Найдены 3 статьи |
| 2 | Извлечение спецификаций | Цены, память, производительность |
| 3 | Сравнение по критериям | Таблица сравнения |
| 4 | Рекомендация | Вывод с обоснованием |
Если вы хотите собрать такую систему локально, у меня есть подробное руководство по локальной Agentic RAG. Там всё без облаков и API.
! Главная проблема Agentic RAG
Латентность. Каждая итерация планирования — это новый вызов LLM. Если у вас сложный запрос требует 5-7 шагов, время ответа взлетает до 30-40 секунд. В production это неприемлемо.
Исследователи предлагают два решения:
- Кэширование планов для типовых запросов
- Параллельное выполнение независимых подзадач
- Использование маленьких моделей для простых решений
GraphRAG: когда векторного поиска недостаточно
Вот где начинается магия. GraphRAG — это подход от Microsoft, который использует графы знаний вместо (или вместе с) векторным поиском.
Как это работает технически:
- Из документов извлекаются сущности (люди, организации, даты, понятия)
- Строятся отношения между сущностями
- Создаётся граф, где узлы — сущности, рёбра — отношения
- При запросе система ищет не просто текстовые совпадения, а пути в графе
В исследовании от июня 2024 года GraphRAG показал на 68% лучшие результаты на задачах, требующих понимания связей:
- "Кто принимал решения по проекту X в 2023 году?"
- "Какие отделы затронет изменение процесса Y?"
- "Найдите конфликты интересов между сотрудниками"
Но есть и тёмная сторона: подготовка графа занимает часы или даже дни для больших баз знаний. И каждый новый документ требует перестройки части графа. Для динамических данных это проблема.
BayesRAG: вероятностный подход к поиску
Самый математически сложный, но и самый перспективный подход. BayesRAG использует байесовские сети для оценки достоверности найденной информации.
Проблема, которую решает BayesRAG: ваш RAG нашёл 5 документов по запросу. Три говорят одно, два — другое. Классический подход либо берёт топ-1 (самый релевантный), либо смешивает всё в кучу. BayesRAG оценивает:
| Фактор | Как оценивается | Влияние на результат |
|---|---|---|
| Достоверность источника | Историческая точность ответов | Высокая достоверность = больший вес |
| Свежесть данных | Дата создания документа | Новые документы ценнее старых |
| Согласованность | Сколько источников говорят одно | Консенсус повышает уверенность |
| Контекстуальная релевантность | Насколько ответ подходит к контексту | Фильтрация нерелевантного |
В исследовании от июля 2024 года BayesRAG уменьшил количество галлюцинаций на 52% по сравнению с классическим RAG. Но цена — увеличение времени обработки на 300%.
Практический совет: не используйте BayesRAG для простых FAQ-систем. Сложная математика не окупится. Но для медицинских, юридических или финансовых систем, где ошибка стоит дорого, это must-have.
Сравнительная таблица: что когда использовать
| Подход | Лучше всего для | Худше всего для | Сложность внедрения | Производительность |
|---|---|---|---|---|
| Классический RAG | Простые Q&A, статические документы | Сложные многошаговые запросы | Низкая | Высокая |
| Agentic RAG | Автономные помощники, сложные задачи | Простые одношаговые запросы | Высокая | Средняя-низкая |
| GraphRAG | Анализ связей, семантический поиск | Быстро меняющиеся данные | Очень высокая | Низкая (поиск быстрый, подготовка медленная) |
| BayesRAG | Критически важные системы, медицина, финансы | Высоконагруженные публичные сервисы | Экстремальная | Очень низкая |
Что будет дальше? Прогнозы на 2025
Исследования не стоят на месте. Вот что появляется в препринтах:
1. Мультимодальный Agentic RAG
Агенты, которые работают не только с текстом, но и с изображениями, аудио, видео. Представьте: вы загружаете скриншот интерфейса, а агент находит в базе знаний похожие UI и предлагает решения проблем. Если интересно, у меня есть статья про мультимодальный RAG и новые подходы.
2. RAG для анализа кода
GraphRAG идеально подходит для анализа кодовых баз. Вместо простого текстового поиска по репозиторию — понимание связей между функциями, классами, модулями. Уже есть работающие прототипы для Elixir (читайте про Ragex и анализ кода на AST).
3. Смешанные архитектуры
Никто не говорит, что нужно выбирать один подход. Следующий шаг — гибриды: GraphRAG для понимания связей + BayesRAG для оценки достоверности + Agentic для планирования. Сложно? Ещё бы. Но именно так выглядят production-системы будущего.
Практические советы от того, кто обжёгся
После чтения десятков исследований и тестирования прототипов:
- Сначала измерьте проблему. Прежде чем внедрять GraphRAG, проверьте: действительно ли ваши пользователи задают вопросы про связи между сущностями? Может, им просто нужен быстрый поиск по документам?
- Agentic RAG убивает latency. Если ваша система должна отвечать за 2 секунды, забудьте про многошаговое планирование. Или кэшируйте планы агрессивно.
- BayesRAG требует labeled data. Для обучения байесовской сети нужны размеченные данные "верный/неверный ответ". Где вы их возьмёте?
- Графы ломаются от обновлений. Если ваши документы меняются ежедневно, GraphRAG будет постоянно перестраиваться. Либо ищите инкрементальные алгоритмы, либо не используйте графы.
И самое главное: прежде чем внедрять сложную архитектуру, прочитайте статью про то, как заставить RAG не врать. Часто проблема не в архитектуре, а в базовых вещах: качестве чанков, эмбеддингов, промптинге.
Куда смотреть дальше?
Если хотите углубиться:
- ragview.ai — свежий ресурс с визуализацией разных RAG-архитектур. Показывает, как данные движутся через систему
- Препринты на arXiv по тегам "rag", "retrieval-augmented", "knowledge-graphs"
- Конференции: EMNLP 2024, ACL 2024 — там будут представлены самые свежие работы
- Открытые реализации на GitHub: ищите "agentic-rag", "graph-rag", "bayesian-rag"
Мой прогноз: к концу 2025 года 30% production RAG-систем будут использовать гибридные архитектуры. Остальные 70%... останутся на классическом RAG, потому что "работает же".
Последний совет: не гонитесь за хайпом. Самый красивый research paper — не значит самый практичный. Тестируйте на своих данных, измеряйте метрики, считайте стоимость. И помните: иногда проще нанять человека-эксперта, чем строить супер-сложную AI-систему.
А если решитесь на сложную систему, начинайте с roadmap. У меня есть подробный roadmap от гибридного поиска до production, который сэкономит вам пару месяцев проб и ошибок.