Что такое метрика Bits over Random (BoR)?

Bits over Random (BoR) — это новая метрика, представленная на ICLR 2026, которая оценивает, насколько полезную информацию добавляет система извлечения контекста (retrieval) по сравнению со случайным выбором документов. Она измеряет селективность и информационную ценность извлеченных данных, а не просто их количество или бинарную релевантность.

Чем BoR лучше традиционных метрик, таких как recall и precision?

Традиционные метрики, такие как recall и precision, часто вводят в заблуждение в production-средах. Recall поощряет захламление контекста нерелевантными документами, а precision игнорирует важность полноты. BoR напрямую измеряет, насколько извлеченный контекст улучшает качество финального ответа LLM, штрафуя за шум и поощряя информативность.

Как метрика BoR повлияет на разработку RAG-систем в 2026 году?

BoR станет стандартом для мониторинга и бенчмаркинга production RAG-систем и AI-агентов. Она позволит раньше обнаруживать деградацию качества, оптимизировать баланс между стоимостью обработки и точностью, и сравнивать разные стратегии retrieval (как HyDE, переранжирование) на основе их реальной информационной пользы, а не формальных показателей.

Bits over Random: Новая метрика для RAG и агентов | ICLR 2026

Проблема: метрики retrieval врут, и все об этом знают

Ваша RAG-система показывает recall под 95%, но ответы все равно выдают откровенную чушь. Знакомо? Вы не одиноки. Классические метрики — precision, recall, F1 — давно превратились в формальность. Они отлично работают в вакууме, но в реальных системах с контекстным загрязнением и шумными данными они просто врут вам в лицо.

Система может извлечь все релевантные чанки (высокий recall), но если среди них будет 90% мусора, LLM сгенерирует галлюцинацию. Точность падает, пользователи злятся, а метрики молча рапортуют об успехе.

BoR: биты против хаоса

На ICLR 2026 группа исследователей из Stanford, FAIR и Google представила метрику под названием Bits over Random (BoR). Концепция проста до гениальности: сколько полезных битов информации ваш ретривер добавляет к ответу по сравнению со случайным выбором документов из того же корпуса?

💡

BoR не спрашивает "нашел ли ты все релевантное?" (recall) или "нашел ли ты только релевантное?" (precision). Она спрашивает: "Насколько твой выбор лучше, чем подбрасывание монетки?". Метрика измеряет селективность — способность отфильтровывать шум даже в ущерб полноте.

Формула основана на теории информации. BoR вычисляет разницу между информационным содержанием выбранного набора контекста и информационным содержанием случайной выборки того же размера. Высокий BoR означает, что ваша система извлекает контекст с высокой полезностью для генерации, а не просто набирает тексты по ключевым словам.

Смерть эпохи recall и рождение новой диагностики

Почему это меняет правила игры? Потому что современные агентные и гибридные RAG-системы страдают от избытка информации. Они умеют извлекать тонны данных, но не умеют их фильтровать. BoR заставляет оценивать не количество, а качество контекста.

Метрика	Что измеряет	Проблема в 2026	BoR vs Классика
Recall@k	Долю релевантных документов в топ-k	Поощряет захламление контекста	BoR штрафует за нерелевантные документы, даже если релевантные найдены
Precision@k	Долю релевантных среди извлеченных	Игнорирует важность полноты для сложных запросов	BoR учитывает информационную ценность, а не бинарную релевантность
nDCG	Учитывает порядок и градации релевантности	Требует дорогой разметки и плохо масштабируется	BoR использует вероятностную модель, не нуждается в человеческих оценках

Практический эффект? Разработчики наконец-то получат метрику, которая прямо коррелирует с качеством финального ответа LLM. Низкий BoR — сигнал, что ваш роутер или гибридный поиск работает не лучше случайного угадывания. Пора пересматривать эмбеддинги, чанкинг или ранжирование.

Что это значит для вашего production RAG?

Если вы собираетесь по roadmap в production, готовьтесь добавить BoR в свой мониторинг. Особенно для агентов, которые делают цепочки вызовов к ретриверу. Там контекстное загрязнение накапливается как снежный ком.

Раннее предупреждение: Падение BoR предскажет деградацию системы раньше, чем пользователи начнут жаловаться. Например, когда в векторную БД просочатся низкокачественные данные.
Сравнение стратегий: HyDE, расширение запросов, переранжирование — BoR покажет, какие методы действительно добавляют информацию, а какие просто увеличивают шум.
Экономия: Зачем платить за обработку 20 чанков, если только 2 из них несут полезные биты? BoR помогает найти точку оптимума между ценой и точностью.

Внедрение BoR в пайплайн — это не просто замена одной метрики на другую. Это смена парадигмы: от оценки "нашел/не нашел" к оценке "насколько полезно то, что нашел".

Подводные камни и критика

BoR — не серебряная пуля. Для ее вычисления нужна вероятностная модель релевантности, которую надо обучать или калибровать под ваш домен. В нишевых областях, например, для RAG для кода, это может стать отдельным проектом.

Некоторые исследователи уже заметили, что BoR может быть слишком сурова к системам, которые жертвуют селективностью ради покрытия редких запросов. Но авторы парируют: если ваш ретривер не лучше случайности для большинства запросов, может, ему и не место в продакшене?

Что делать прямо сейчас?

Не ждите, пока BoR появится в каждой библиотеке. Начните с пересмотра своих бенчмарков. Прекратите оптимизировать системы под высокий recall на заведомо чистых данных. Создавайте тестовые наборы с контролируемым шумом — как в реальной жизни, где фейки и атаки стали нормой.

Спросите себя: что важнее для моего use-case — найти все возможные документы или гарантировать, что каждый отправленный в LLM чанк увеличивает вероятность правильного ответа? Если второе, ваша следующая встреча по планированию должна начинаться со слов "Bits over Random". К концу 2026 года отсутствие этой метрики в дашборде будет считаться дурным тоном. А те, кто продолжит гнаться за recall, останутся с красивыми графиками и разгневанными пользователями.

Подписаться на канал

Bits over Random (BoR): Новая метрика для оценки качества retrieval в RAG и агентах