Bits over Random: Новая метрика для RAG и агентов | ICLR 2026 | AiManual
AiManual Logo Ai / Manual.
26 Мар 2026 Новости

Bits over Random (BoR): Новая метрика для оценки качества retrieval в RAG и агентах

Bits over Random (BoR) — новая метрика с ICLR 2026, которая меняет подход к оценке извлечения контекста в RAG-системах и AI-агентах.

Проблема: метрики retrieval врут, и все об этом знают

Ваша RAG-система показывает recall под 95%, но ответы все равно выдают откровенную чушь. Знакомо? Вы не одиноки. Классические метрики — precision, recall, F1 — давно превратились в формальность. Они отлично работают в вакууме, но в реальных системах с контекстным загрязнением и шумными данными они просто врут вам в лицо.

Система может извлечь все релевантные чанки (высокий recall), но если среди них будет 90% мусора, LLM сгенерирует галлюцинацию. Точность падает, пользователи злятся, а метрики молча рапортуют об успехе.

BoR: биты против хаоса

На ICLR 2026 группа исследователей из Stanford, FAIR и Google представила метрику под названием Bits over Random (BoR). Концепция проста до гениальности: сколько полезных битов информации ваш ретривер добавляет к ответу по сравнению со случайным выбором документов из того же корпуса?

💡
BoR не спрашивает "нашел ли ты все релевантное?" (recall) или "нашел ли ты только релевантное?" (precision). Она спрашивает: "Насколько твой выбор лучше, чем подбрасывание монетки?". Метрика измеряет селективность — способность отфильтровывать шум даже в ущерб полноте.

Формула основана на теории информации. BoR вычисляет разницу между информационным содержанием выбранного набора контекста и информационным содержанием случайной выборки того же размера. Высокий BoR означает, что ваша система извлекает контекст с высокой полезностью для генерации, а не просто набирает тексты по ключевым словам.

Смерть эпохи recall и рождение новой диагностики

Почему это меняет правила игры? Потому что современные агентные и гибридные RAG-системы страдают от избытка информации. Они умеют извлекать тонны данных, но не умеют их фильтровать. BoR заставляет оценивать не количество, а качество контекста.

МетрикаЧто измеряетПроблема в 2026BoR vs Классика
Recall@kДолю релевантных документов в топ-kПоощряет захламление контекстаBoR штрафует за нерелевантные документы, даже если релевантные найдены
Precision@kДолю релевантных среди извлеченныхИгнорирует важность полноты для сложных запросовBoR учитывает информационную ценность, а не бинарную релевантность
nDCGУчитывает порядок и градации релевантностиТребует дорогой разметки и плохо масштабируетсяBoR использует вероятностную модель, не нуждается в человеческих оценках

Практический эффект? Разработчики наконец-то получат метрику, которая прямо коррелирует с качеством финального ответа LLM. Низкий BoR — сигнал, что ваш роутер или гибридный поиск работает не лучше случайного угадывания. Пора пересматривать эмбеддинги, чанкинг или ранжирование.

Что это значит для вашего production RAG?

Если вы собираетесь по roadmap в production, готовьтесь добавить BoR в свой мониторинг. Особенно для агентов, которые делают цепочки вызовов к ретриверу. Там контекстное загрязнение накапливается как снежный ком.

  • Раннее предупреждение: Падение BoR предскажет деградацию системы раньше, чем пользователи начнут жаловаться. Например, когда в векторную БД просочатся низкокачественные данные.
  • Сравнение стратегий: HyDE, расширение запросов, переранжирование — BoR покажет, какие методы действительно добавляют информацию, а какие просто увеличивают шум.
  • Экономия: Зачем платить за обработку 20 чанков, если только 2 из них несут полезные биты? BoR помогает найти точку оптимума между ценой и точностью.

Внедрение BoR в пайплайн — это не просто замена одной метрики на другую. Это смена парадигмы: от оценки "нашел/не нашел" к оценке "насколько полезно то, что нашел".

Подводные камни и критика

BoR — не серебряная пуля. Для ее вычисления нужна вероятностная модель релевантности, которую надо обучать или калибровать под ваш домен. В нишевых областях, например, для RAG для кода, это может стать отдельным проектом.

Некоторые исследователи уже заметили, что BoR может быть слишком сурова к системам, которые жертвуют селективностью ради покрытия редких запросов. Но авторы парируют: если ваш ретривер не лучше случайности для большинства запросов, может, ему и не место в продакшене?

Что делать прямо сейчас?

Не ждите, пока BoR появится в каждой библиотеке. Начните с пересмотра своих бенчмарков. Прекратите оптимизировать системы под высокий recall на заведомо чистых данных. Создавайте тестовые наборы с контролируемым шумом — как в реальной жизни, где фейки и атаки стали нормой.

Спросите себя: что важнее для моего use-case — найти все возможные документы или гарантировать, что каждый отправленный в LLM чанк увеличивает вероятность правильного ответа? Если второе, ваша следующая встреча по планированию должна начинаться со слов "Bits over Random". К концу 2026 года отсутствие этой метрики в дашборде будет считаться дурным тоном. А те, кто продолжит гнаться за recall, останутся с красивыми графиками и разгневанными пользователями.

Подписаться на канал