Новый открытый бенчмарк RAG с корпусом 500k документов

RAG в теории и в жизни — две большие разницы

Вы когда-нибудь пробовали скормить своему RAG-пайплайну реальную корпоративную помойку? Я не о красивых датасетах с Wikipedia или набором отзывов на Amazon. Я о тех 500 000 PDF, Word и Excel-файлах, которые пылятся в общих папках любой компании старше трёх лет. На тестовых датасетах большинство RAG-систем стреляет без промаха. Как только в игру вступают сканы с водяными знаками, PDF с кривым OCR и email-переписка с вложенными таблицами — точность падает в полтора-два раза. И вот наконец сообщество получило то, чего так не хватало: открытый бенчмарк CorpRAG-500k с корпусом из полумиллиона реалистичных корпоративных документов.

Бенчмарк выложен на Hugging Face 3 мая 2026 года. Лицензия — Apache 2.0. Никаких отговорок вроде "эти данные мы не можем показать" больше нет.

Что болит у каждого инженера RAG?

Давайте честно: любой бенчмарк — это компромисс. Либо датасет маленький и чистый, либо большой, но не воспроизводимый (потому что NDA). CorpRAG-500k разрывает этот порочный круг. Корпус собран из документов с открытыми лицензиями (SEC filings, отчёты международных организаций, техническая документация популярных open-source проектов), но обработан так, чтобы имитировать структуру корпоративного хранилища: вложенные папки, версионность, сканы с разным разрешением, таблицы в PDF, встроенные изображения.

Цифры, от которых захватывает дух:

Параметр	Значение
Количество документов	500 234
Общий объём текста	~2.1 ТБ
Типы файлов	PDF (75%), DOCX (18%), XLSX (5%), EML (2%)
Количество вопросов в тестовом наборе	12 000
Доля документов со сложной разметкой	~40%

Вопросы сгенерированы не абы как. Сначала набор из 500 вопросов составили профессиональные аналитики, а потом дообучили модель на основе GPT-5 для генерации ещё 11 500 вопросов. Каждый ответ проверен человеком и снабжён ссылкой на конкретный чанк документа.

Первый же запуск показал: мы живём в эпоху недоделанных RAG

Авторы бенчмарка уже прогнали через него пять популярных RAG-стеков: LangChain + ChromaDB, LlamaIndex + FAISS, Haystack + Qdrant, собственный pipeline на PageIndex (без эмбеддингов) и пайплайн с локальной обработкой через Ollama. Результаты — хорошая пощёчина для тех, кто верит, что "векторный поиск и GPT решат всё". Средняя точность (Recall@10) на простых документах — 0.82. На документах со сложной табличной структурой — 0.41. Лаг приложения — от 3 до 22 секунд в зависимости от размера контекста. А если документ содержит вложенные таблицы? Забудьте, точность падает до 0.2.

Знакомая картина, да? Именно об этом мы писали в обзоре векторного RAG на сложных документах. Новый бенчмарк только подтвердил: без гибридного подхода (ключевые слова + эмбеддинги + понимание структуры документа) в корпоративной среде делать нечего.

Главный сюрприз: пайплайн на базе PageIndex без эмбеддингов показал точность 0.63 на сложных таблицах — это выше, чем среднее значение для векторных решений. Видимо, пришло время пересмотреть роль эмбеддингов.

Как это поможет вам (помимо того, что вы наконец сможете щегольнуть цифрами перед боссом)

Самый частый вопрос, который я слышу на митапах: "А где взять корпоративный датасет для тестов?" Теперь он есть. Можно взять бенчмарк, прогнать свою конфигурацию и понять, где именно ваш RAG сыпется. Вот несколько сценариев, где CorpRAG-500k уже пригодился нашим читателям:

Выбор чанкера. Авторы продемонстрировали, что разбивка по предложениям сильно проигрывает семантическому чанкингу на документах с таблицами. Наши коллеги из обзора Kreuzberg v4 давно об этом говорят — теперь есть цифры.
Сравнение эмбеддеров. На наборе вопросов про финансовые отчёты модель bge-m3 немного обогнала gte-large (0.87 против 0.85), но проиграла на технической документации. Вывод: не бывает универсального эмбеддера.
Тестирование гибридного поиска. Добавление BM25 к векторному поиску повысило Recall@10 в среднем на 12%. Меньше, чем я ожидал, но на отдельных запросах (коды продуктов, номера контрактов) прирост достигал 40%.

Если вы ещё не набили шишек на собственных данных — рекомендую сначала изучить пошаговый туториал по созданию RAG с LangChain, а потом уже прогонять бенчмарк. Иначе рискуете утонуть в деталях.

Почему именно 500 000, а не миллион?

Авторы объясняют: полумиллиона достаточно, чтобы увидеть качественные различия между системами, но не так много, чтобы бенчмарк стало невозможно запустить на домашней машине. Для тестирования минимальных конфигураций достаточно выборки из 10% документов. Полный датасет весит около 2 ТБ — его лучше разворачивать на сервере или в облаке. Кстати, опыт Associa с 26 ТБ показывает: масштабирование — это не только про железо, но и про правильную стратегию индексации.

Как не повторить чужие ошибки: три главных граблей

Бенчмарк уже выявил типовые проблемы, которые раньше списывали на "специфику данных". Вот они, на тарелочке:

Переполнение контекста. Документы из корпуса часто содержат повторяющиеся заголовки и нижние колонтитулы. RAG, который честно запихивает весь документ в контекст, тратит до 30% токенов впустую. Решение — предварительно чистить документы через MarkItDown от Microsoft или подобные инструменты.
Игнорирование метаданных. В корпоративных хранилищах у каждого документа есть дата, автор, версия. Большинство RAG-пайплайнов просто выбрасывают эту информацию. Бенчмарк показывает, что добавление метаданных в чанк повышает точность ответов на вопросы о "последней версии" на 27%.
Слепая вера в эмбеддинги. На датасете с большим количеством таблиц и кодов векторный поиск проигрывает обычному регулярному выражению в 40% случаев. Вывод: не выбрасывайте классический поиск.

Что дальше? Бенчмарк только открылся, а уже меняет индустрию

Я ставлю на то, что через год CorpRAG-500k станет стандартом для сертификации RAG-решений. Hugging Face уже анонсировал интеграцию с их платформой лидербордов. Если ваша система не прошла этот бенчмарк, вы просто не сможете называть её "корпоративно-готовой". А пока — идите и тестируйте. Берите датасет, гоняйте свои пайплайны и не забудьте поделиться результатами. Только так мы вытащим RAG из долины смерти между академическими игрушками и реальным бизнесом.

Подписаться на канал

500 000 документов, которые проверят любой RAG: новый открытый бенчмарк для корпоративных данных