Проблема: метрики retrieval врут, и все об этом знают
Ваша RAG-система показывает recall под 95%, но ответы все равно выдают откровенную чушь. Знакомо? Вы не одиноки. Классические метрики — precision, recall, F1 — давно превратились в формальность. Они отлично работают в вакууме, но в реальных системах с контекстным загрязнением и шумными данными они просто врут вам в лицо.
Система может извлечь все релевантные чанки (высокий recall), но если среди них будет 90% мусора, LLM сгенерирует галлюцинацию. Точность падает, пользователи злятся, а метрики молча рапортуют об успехе.
BoR: биты против хаоса
На ICLR 2026 группа исследователей из Stanford, FAIR и Google представила метрику под названием Bits over Random (BoR). Концепция проста до гениальности: сколько полезных битов информации ваш ретривер добавляет к ответу по сравнению со случайным выбором документов из того же корпуса?
Формула основана на теории информации. BoR вычисляет разницу между информационным содержанием выбранного набора контекста и информационным содержанием случайной выборки того же размера. Высокий BoR означает, что ваша система извлекает контекст с высокой полезностью для генерации, а не просто набирает тексты по ключевым словам.
Смерть эпохи recall и рождение новой диагностики
Почему это меняет правила игры? Потому что современные агентные и гибридные RAG-системы страдают от избытка информации. Они умеют извлекать тонны данных, но не умеют их фильтровать. BoR заставляет оценивать не количество, а качество контекста.
| Метрика | Что измеряет | Проблема в 2026 | BoR vs Классика |
|---|---|---|---|
| Recall@k | Долю релевантных документов в топ-k | Поощряет захламление контекста | BoR штрафует за нерелевантные документы, даже если релевантные найдены |
| Precision@k | Долю релевантных среди извлеченных | Игнорирует важность полноты для сложных запросов | BoR учитывает информационную ценность, а не бинарную релевантность |
| nDCG | Учитывает порядок и градации релевантности | Требует дорогой разметки и плохо масштабируется | BoR использует вероятностную модель, не нуждается в человеческих оценках |
Практический эффект? Разработчики наконец-то получат метрику, которая прямо коррелирует с качеством финального ответа LLM. Низкий BoR — сигнал, что ваш роутер или гибридный поиск работает не лучше случайного угадывания. Пора пересматривать эмбеддинги, чанкинг или ранжирование.
Что это значит для вашего production RAG?
Если вы собираетесь по roadmap в production, готовьтесь добавить BoR в свой мониторинг. Особенно для агентов, которые делают цепочки вызовов к ретриверу. Там контекстное загрязнение накапливается как снежный ком.
- Раннее предупреждение: Падение BoR предскажет деградацию системы раньше, чем пользователи начнут жаловаться. Например, когда в векторную БД просочатся низкокачественные данные.
- Сравнение стратегий: HyDE, расширение запросов, переранжирование — BoR покажет, какие методы действительно добавляют информацию, а какие просто увеличивают шум.
- Экономия: Зачем платить за обработку 20 чанков, если только 2 из них несут полезные биты? BoR помогает найти точку оптимума между ценой и точностью.
Внедрение BoR в пайплайн — это не просто замена одной метрики на другую. Это смена парадигмы: от оценки "нашел/не нашел" к оценке "насколько полезно то, что нашел".
Подводные камни и критика
BoR — не серебряная пуля. Для ее вычисления нужна вероятностная модель релевантности, которую надо обучать или калибровать под ваш домен. В нишевых областях, например, для RAG для кода, это может стать отдельным проектом.
Некоторые исследователи уже заметили, что BoR может быть слишком сурова к системам, которые жертвуют селективностью ради покрытия редких запросов. Но авторы парируют: если ваш ретривер не лучше случайности для большинства запросов, может, ему и не место в продакшене?
Что делать прямо сейчас?
Не ждите, пока BoR появится в каждой библиотеке. Начните с пересмотра своих бенчмарков. Прекратите оптимизировать системы под высокий recall на заведомо чистых данных. Создавайте тестовые наборы с контролируемым шумом — как в реальной жизни, где фейки и атаки стали нормой.
Спросите себя: что важнее для моего use-case — найти все возможные документы или гарантировать, что каждый отправленный в LLM чанк увеличивает вероятность правильного ответа? Если второе, ваша следующая встреча по планированию должна начинаться со слов "Bits over Random". К концу 2026 года отсутствие этой метрики в дашборде будет считаться дурным тоном. А те, кто продолжит гнаться за recall, останутся с красивыми графиками и разгневанными пользователями.