Ваш RAG работает? Серьезно? Или он просто неловко подсовывает первые пять чанков из вектора, надеясь, что вы не заметите? Если точность ответов падает с ростом базы знаний, а LLM начинает генерировать откровенный бред на основе нерелевантных документов — добро пожаловать в клуб. Проблема не в размере модели, а в качестве того мусора, который вы ей подаете.

Би-энкодеры (те самые, что делают embedding) хороши для первичного поиска. Но они смотрят на запрос и документ по отдельности, как на два незнакомца в метро. Cross-encoder — это психолог, который усадил их за один стол и заставил поговорить. Разница в качестве оценки релевантности — катастрофическая.

Зачем эта сложность? Би-энкодеры же быстрее

Скорость против точности — старый спор. В продакшене вам нужно и то, и другое. Стратегия проста: би-энкодер (или гибридный поиск) делает грубый отбор топ-100 кандидатов. Потом кросс-энкодер перепроверяет их, выкидывая 95% мусора. Итог: в контекст к LLM попадают только снайперски точные чанки. Качество ответов взлетает.

Главный миф: reranking — это дорого. На практике вызов кросс-энкодера для 100 документов добавляет 50-200 мс. Зато вы сэкономите 10 секунд на том, что не будете перезапускать LLM из-за халтурного ответа.

Инструменты 2026 года: что выбрать сегодня

На апрель 2026 года ландшафт стабилизировался. Не тратьте время на эксперименты с десятком библиотек.

Sentence Transformers (v3.4+): по-прежнему король. Поддерживает и би-энкодеры, и кросс-энкодеры в одной экосистеме. Актуальные модели: cross-encoder/ms-marco-MiniLM-L-12-v3 для общего поиска, cross-encoder/nli-deberta-v3-base для тонких смыслов.
FlagEmbedding с моделью BAAI/bge-reranker-v3.5: лидер по многим бенчмаркам, особенно для многоязычных данных.
Cohere Rerank API: если нет желания разворачивать свою модель. Дороговато, но качество и скорость предсказуемы.
Самописный ранкер на основе GPT-4o-Mini: крайняя мера, когда нужны сверхсложные рассуждения о релевантности. Латентность высокая, стоимость тоже.

Мой выбор для 95% проектов — bge-reranker-v3.5 через FlagEmbedding. Модель легкая (чуть больше 400 МБ), точная, с открытой лицензией.

💡

Недавний релиз FlagEmbedding v3.5 добавил оптимизацию для батч-инференса на CPU. Теперь ранжирование 100 документов на дешевом виртуалке занимает ~120 мс. Это меняет правила игры для бюджетных развертываний.

1 Собираем пайплайн: от запроса до переранжирования

Теория — это скучно. Давайте код. Вот минимальный рабочий пайплайн, который можно скопировать и запустить.

# requirements.txt актуальные на 11.04.2026
# sentence-transformers==3.4.0
# flag-embeddings==2.1.0
# pydantic==2.10.0

import numpy as np
from typing import List
from sentence_transformers import CrossEncoder
from flag_embeddings import BGEReranker

class AdvancedRAGReranker:
    def __init__(self, reranker_model_name: str = "BAAI/bge-reranker-v3.5"):
        # Инициализируем ранкер
        # Для английских данных можно использовать 'cross-encoder/ms-marco-MiniLM-L-12-v3'
        self.reranker = BGEReranker(model_name=reranker_model_name, use_fp16=True)
        
    def retrieve_candidates(self, query: str, top_k: int = 100) -> List[str]:
        """
        Первичный поиск. Здесь может быть ваш векторный поиск, BM25, или гибрид.
        В реальном проекте тут будет запрос к Elasticsearch, Qdrant или Pinecone.
        """
        # Заглушка: в реальности здесь запрос к векторной БД
        dummy_documents = [
            "Документ о настройке Kubernetes кластера с автоматическим scaling.",
            "Руководство по миграции с Docker на Podman версии 2026 года.",
            "Отчет о финансовых показателях компании за Q1 2026.",
            # ... еще 97 случайных документов из вашей базы
        ]
        return dummy_documents[:top_k]
    
    def rerank_documents(self, query: str, documents: List[str], top_n: int = 5) -> List[tuple]:
        """
        Основная магия: переранжирование документов относительно запроса.
        Возвращает список кортежей (документ, оценка).
        """
        if not documents:
            return []
            
        # Подготавливаем пары запрос-документ
        pairs = [[query, doc] for doc in documents]
        
        # Получаем оценки от кросс-энкодера
        # Внутри модель вычисляет score для каждой пары
        scores = self.reranker.compute_score(pairs)
        
        # Сортируем документы по убыванию релевантности
        ranked_results = sorted(
            zip(documents, scores), 
            key=lambda x: x[1], 
            reverse=True
        )
        
        return ranked_results[:top_n]
    
    def full_pipeline(self, query: str) -> List[str]:
        """Полный цикл: поиск -> переранжирование -> возврат топ-5."""
        # Шаг 1: Грубый поиск (быстрый, но неточный)
        candidates = self.retrieve_candidates(query, top_k=50)
        
        # Шаг 2: Точное переранжирование (медленнее, но точно)
        reranked = self.rerank_documents(query, candidates, top_n=5)
        
        # Извлекаем только тексты документов (без scores) для передачи в LLM
        final_docs = [doc for doc, score in reranked]
        return final_docs

# Использование
if __name__ == "__main__":
    rag_reranker = AdvancedRAGReranker()
    query = "Как настроить autoscaling в Kubernetes в 2026 году?"
    
    relevant_docs = rag_reranker.full_pipeline(query)
    
    for i, doc in enumerate(relevant_docs):
        print(f"Документ {i+1}: {doc[:100]}...")

Это скелет. В реальности метод retrieve_candidates будет обращаться к вашей векторной БД. Кстати, если у вас гибридный поиск (векторы + ключевые слова), точность первичного отбора вырастет, и кросс-энкодеру останется только шлифовать результат. Подробнее об этом в статье Гибридный поиск в Agentic RAG.

2 Fine-tuning кросс-энкодера под ваши данные

Готовые модели обучены на общих датасетах вроде MS MARCO. Они хороши, но не знают вашу доменную специфику. Если вы работаете с медицинскими текстами или юридическими документами — fine-tuning обязателен.

Самое сложное — собрать датасет для обучения. Вам нужны тройки: (запрос, релевантный документ, нерелевантный документ). Способы:

Логи пользовательских кликов: что они искали и на какие документы в итоге перешли. Золотой стандарт.
Синтетические данные через LLM: попросите GPT-4o сгенерировать правдоподобные запросы к вашим документам.
Разметка силами экспертов: дорого, медленно, но качественно.

Вот как выглядит процесс обучения на основе Sentence Transformers:

from sentence_transformers import CrossEncoder
from sentence_transformers.cross_encoder.evaluation import CEBinaryClassificationEvaluator
from torch.utils.data import DataLoader
import logging

# 1. Подготовка датасета
# Предположим, у нас есть список троек (query, positive_doc, negative_doc)
train_samples = [
    ("настройка autoscaling", "Документ с подробной инструкцией по autoscaling...", "Документ про установку Docker..."),
    # ... тысячи таких примеров
]

# 2. Загрузка предобученной модели
model = CrossEncoder('cross-encoder/ms-marco-MiniLM-L-12-v3', num_labels=1)

# 3. Создание DataLoader
train_dataloader = DataLoader(train_samples, shuffle=True, batch_size=16)

# 4. Обучение
model.fit(
    train_dataloader=train_dataloader,
    epochs=3,
    warmup_steps=100,
    output_path='./my_finetuned_cross_encoder',
    show_progress_bar=True
)

print("Модель дообучена и сохранена!")

Ошибка новичков: fine-tuning на слишком маленьком датасете (меньше 1000 примеров). Модель переобучится на шум и станет хуже, чем была. Минимум — 3-5 тысяч размеченных пар.

Провальные сценарии и как их избежать

Внедряли reranking, а стало только хуже? Скорее всего, вы наступили на одну из этих граблей.

Ошибка	Симптомы	Лечение
Переранжирование слишком маленького пула кандидатов	Итоговые документы всё равно нерелевантны. Ранкеру не из чего выбирать.	Увеличить `top_k` первичного поиска с 20 до 50-100. Или улучшить сам первичный поиск (см. Математический потолок RAG).
Игнорирование задержек (latency)	Пользователь ждет ответ 3 секунды вместо 500 мс.	Использовать батч-инференс, кэшировать результаты для частых запросов, поднять мощность инстанса с GPU.
Использование одной модели для всех языков	Русские запросы ранжируются с низкой точностью.	Взять многоязычную модель (bge-reranker-v3.5) или обучить свою на смешанном датасете.

Самая коварная ошибка — тихая деградация. Сегодня ранкер работает отлично, через месяц качество просело на 15%. Почему? Потому что ваши данные изменились (добавились новые типы документов), а модель нет. Решение — периодический перезапуск обучения на свежих логах. Хотя бы раз в квартал.

Ответы на вопросы, которые вы постеснялись задать

Можно ли использовать кросс-энкодер для первичного поиска? Технически — да. Практически — никогда. Он должен обрабатывать каждую пару запрос-документ. Для базы в 1 млн документов это займет часы. Всегда сначала быстрый поиск, потом точный reranking.
Как оценить эффективность внедрения? A/B-тест. Одной группе пользователей — старый пайплайн, другой — с reranking. Сравнивайте метрики: CTR на предложенные документы, длину сессии, субъективную оценку качества ответов (через обратную связь).
Есть ли альтернативы кросс-энкодерам? Есть, но они нишевые. Например, агентские архитектуры, где LLM сама решает, какие документы релевантны. Медленно, дорого, но иногда это единственный вариант для сверхсложных запросов.
Какой процент улучшения можно ожидать? На адекватно настроенном пайплайне — от 30% до 60% по метрике nDCG@5. Если улучшение меньше 10%, значит, проблема не в ранжировании, а в качестве чанков или embedding-модели.

Резюмируем? Не буду. Лучше дам прогноз. К концу 2026 года кросс-энкодеры станут такой же обязательной частью RAG, как сегодня splitter текста. Их встроят в облачные векторные базы (Pinecone, Weaviate), чтобы вы вообще не думали об этом. Пока этого не случилось — у вас есть шанс сделать свой поиск на 60% лучше конкурентов. Код из статьи — готовый каркас. Берите, запускайте, смотрите на цифры. Если не сработает — пишите в комментариях. Разберем вашу конкретную архитектуру.

Подписаться на канал

Cross-Encoders и Reranking: тихий геноцид посредственного поиска в RAG