Что такое гибридный поиск в RAG?

Гибридный поиск — это комбинация семантического (векторного) поиска по смыслу и лексического (ключевого) поиска по точным словам. Он стал стандартом в 2025 году, потому что чистый векторный поиск часто пропускает точные факты, цифры и имена.

Какие проблемы RAG всё ещё не решены?

Основные нерешённые проблемы: высокая стоимость работы с большими контекстными окнами, сложности с ответами на многошаговые (мультихопные) вопросы и отсутствие универсальных метрик для оценки качества ответов системы.

Что такое Time-Aware RAG?

Time-Aware RAG — это новый подход для работы с временными рядами (данными датчиков, финансовыми котировками). Он индексирует не только значения, но и временные метки и паттерны, позволяя отвечать на вопросы о динамике и событиях во времени.

RAG в 2025: главные тренды, проблемы и новые подходы

Год назад казалось, что RAG решит всё. Закинул документы в векторную базу, получил точные ответы. Сейчас, в 2025, мы понимаем: это было наивно. Системы всё ещё галлюцинируют, теряют контекст и требуют тонн ручной настройки. Но кое-что изменилось кардинально.

Гибридный поиск: не модный тренд, а суровая необходимость

Чистый семантический поиск по векторам умер. Ну, почти. Он отлично ловит "смысл", но промахивается по точным датам, цифрам, именам. В 2025 никто не строит продакшен-системы на одном лишь векторном поиске. Все используют гибрид: семантика + ключевые слова.

Почему? Потому что пользователь спросит "выручка компании X в 2024 году", а векторная модель найдёт документы про прибыль вообще, но пропустит тот самый PDF с отчётом, где эта цифра чётко указана. Ключевой поиск (BM25 или его наследники) цепляется за лексемы "выручка", "2024", "X" и вытаскивает нужный кусок.

Предупреждение: Гибридный поиск — это не просто два запроса и усреднение результатов. Нужно взвешивать, переранжировать, иногда даже давать LLM самой решать, какие чанки релевантнее. Иначе получите мешанину из точных, но невнятных фрагментов.

Самый живой тренд — Learned Retrieval. Система сама учится, какие типы запросов лучше обрабатывать семантически, а какие — лексически. Например, если вопрос содержит числительное и название организации, вес ключевого поиска автоматически повышается. Это уже не просто "фича", а стандарт для серьёзных проектов.

Членкинг документов: размер имеет значение. Но какое?

Нарезка текста на куски (членкинг) — самый недооценённый источник боли в RAG. Слишком мелкие чанки теряют контекст. Слишком крупные — засоряют промпт шумом и увеличивают стоимость.

В 2024 все резали по 500 токенов и молились. Сейчас подходы стали изощрённее.

Подход	Суть	Когда работает	Когда проваливается
Семантический членкинг	Разбивает текст по смысловым границам (конец абзаца, заголовок).	Для нарративных текстов, статей, документации.	В таблицах, списках, где смысл разорван.
Рекурсивное сжатие	Сначала режет мелко, затем LLM объединяет логически связанные части.	Для сложных технических документов с перекрёстными ссылками.	Дорого, медленно, требует мощной LLM на этапе индексации.
Адаптивный размер	Размер чанка динамически меняется в зависимости от типа контента.	В системах со смешанным контентом (текст + код + таблицы).	Сложно настроить, требует эвристик.

Эксперименты показывают: нет универсального размера. Для FAQ подходят чанки по 100-200 токенов. Для научных статей — 800-1000. А для анализа мультимодальных данных вообще нужны другие принципы. Кстати, если вы работаете не только с текстом, посмотрите наш разбор мультимодального RAG — там всё ещё интереснее.

RAG для временных рядов: когда данные — это не текст, а поток

Классический RAG заточен под статические документы. А что делать с данными датчиков, котировками акций, логами приложений? Это временные ряды, где важна не семантика, а динамика, тренды, аномалии.

Новый подход, набирающий обороты в 2025 — Time-Aware RAG. Система индексирует не только значения, но и временные метки, паттерны. Запрос "покажи падение продаж в прошлом квартале" ищет не слова "падение" и "продажи", а сегменты временного ряда с отрицательным трендом за конкретный период.

💡

Ключевая фишка Time-Aware RAG — способность отвечать на вопросы типа "что происходило ДО того, как случилось X?". Это требует хранения и индексации временных отношений между событиями, что выходит за рамки обычного векторного поиска.

Технологии пока сырые. Основная проблема — как представлять временные ряды в виде векторов, чтобы сохранялись и значения, и временная структура. Эксперименты идут с преобразованием Фурье, обученными энкодерами для временных последовательностей.

Проблемы, которые всё ещё не решены (и всех бесят)

Несмотря на прогресс, несколько старых ран продолжают кровоточить.

Контекстное окно vs. стоимость. Модели с контекстом в 128K токенов (Claude 3.5 Sonnet, некоторые версии GPT-4) позволяют засунуть в промпт гору данных. Но каждый вылетает в копеечку. А иногда LLM просто игнорирует информацию из середины этого гигантского контекста.
Мультихопные вопросы. "Какие продукты компании X мы продавали в регионе Y в прошлом году?". Чтобы ответить, система должна найти сначала продукты, потом регион, потом совместить. Классический RAG часто ломается на таких запросах. Спасают только многоступенчатые, агентские подходы, но они медленные и сложные.
Оценка качества. Как понять, что твоя RAG-система стала лучше после доработки? Стандартные метрики (Precision, Recall) часто не отражают реальной полезности ответа для пользователя. Люди начинают придумывать свои метрики, что убивает возможность сравнения разных систем.

Что дальше? Тренды на ближайший год

Куда движется индустрия? Вот несколько направлений, за которыми стоит следить.

RAG как часть агента. Изолированные RAG-системы уходят в прошлое. Теперь это компонент более крупного AI-агента, который может не только искать, но и действовать: запускать вычисления, запрашивать внешние API, принимать решения на основе найденного. Об этом мы писали в разборе Agentic RAG.
Специализированные эмбеддинг-модели. Универсальные модели (например, text-embedding-ada-002) хороши для общего случая. Но для медицины, юриспруденции, финансов нужны эмбеддинги, обученные на domain-specific данных. В 2025 ожидается взрыв таких нишевых моделей.
Compressed / Summarized Retrieval. Вместо того чтобы передавать LLM сырые чанки, система сначала сжимает или суммирует их с помощью маленькой, дешёвой модели. Это снижает стоимость и ускоряет работу, хотя и добавляет ещё один потенциальный источник ошибок.
Полная локализация. Зависимость от облачных API (особенно для эмбеддингов) становится риском. Тренд на полностью локальные стеки, работающие на собственном железе, набирает силу. Особенно в корпоративном секторе.

Итог? RAG не стал волшебной таблеткой. Он превратился в сложную, многослойную инженерную дисциплину. Простые реализации уже не катят. Нужно глубоко разбираться в поиске, семантике, оптимизации LLM-промптов и, что важно, в предметной области данных.

Если в 2024 вы могли собрать работающий прототип за выходные, то в 2025 для продакшен-системы нужна команда и несколько месяцев работы. Но и результаты теперь совсем другие — системы, которые действительно понимают, что вы от них хотите, а не просто подбирают похожие слова.

Мой прогноз? К концу 2026 мы забудем термин "RAG". Он растворится в более широком понятии "системы, основанные на знаниях" (Knowledge-Based Systems), где поиск, рассуждение и генерация будут неразделимы. А пока — читайте наши материалы, экспериментируйте и не верьте маркетинговым заголовкам про "революцию в поиске". Революция всегда идёт дольше и сложнее, чем кажется.

RAG в 2025: старые грабли, новые трюки и почему всё ещё больно

Гибридный поиск: не модный тренд, а суровая необходимость

Членкинг документов: размер имеет значение. Но какое?

RAG для временных рядов: когда данные — это не текст, а поток

Проблемы, которые всё ещё не решены (и всех бесят)

Что дальше? Тренды на ближайший год

Подписывайтесь на наш канал!