Вы выбираете эмбеддинг-модель по MTEB. И ошибаетесь
Представьте: вы тестируете три модели для своего RAG-пайплайна. BGE M3 показывает 85% на MTEB, EmbeddingGemma — 82%, какая-то open-source альтернатива — 79%. Логично взять первую, правда? Вот только в реальном продакшене она будет хуже всех.
Потому что MTEB и другие популярные бенчмарки измеряют не то, что нужно. Они оценивают модели на данных, похожих на те, на которых их обучали. Это как проверять знание английского у человека, заставляя его переводить тексты из его же учебника. Результат будет блестящим. А потом он приедет в Лондон и не сможет заказать кофе.
Проблема называется generalization gap — разрыв между результатами на знакомых данных и на новых, незнакомых. Для эмбеддинг-моделей этот разрыв достигает 20-30%. Модель, которая лидирует в таблице MTEB, может оказаться аутсайдером в вашем реальном проекте.
RTEB: бенчмарк, который не даст себя обмануть
Retrieval Embedding Benchmark (RTEB) создали именно для этого — чтобы измерить, как модель работает в условиях, максимально приближенных к реальным. Не в тепличных условиях лаборатории, а там, где данные неструктурированные, запросы формулируют живые люди, а ответ нужно найти в миллионе документов.
Что именно измеряет RTEB (и почему это важно)
- Качество поиска в контексте RAG — не просто семантическое сходство, а способность найти документ, который действительно содержит ответ на вопрос. Это разные вещи. Два текста могут быть семантически близкими, но один отвечает на вопрос, а другой — нет.
- Устойчивость к шуму и вариативности формулировок — пользователи пишут "как настроить принтер", "принтер не печатает что делать" и "настройка печати устройства". Модель должна понимать, что это про одно и то же.
- Работу с длинными документами — большинство бенчмарков используют короткие отрывки. В реальности вы ищете в технических мануалах на 50 страниц или в судебных решениях.
- Способность различать тонкие нюансы — в медицине "повышенное давление" может означать гипертензию или стресс. В юриспруденции "договор аренды" и "договор найма" — не всегда синонимы.
Результаты, которые заставят пересмотреть выбор модели
Когда RTEB протестировали популярные модели, таблица лидеров перевернулась. Тот самый BGE M3, который бьет рекорды на MTEB, на RTEB показывает результаты на 15-20% хуже. Некоторые модели, скромно выглядевшие на старых бенчмарках, выстреливают на новых данных.
| Модель | MTEB Score | RTEB Score | Разрыв |
|---|---|---|---|
| Модель A (лидер MTEB) | 85.3 | 68.7 | -16.6 |
| Модель B (средняя на MTEB) | 79.1 | 72.4 | -6.7 |
| Модель C (аутсайдер MTEB) | 74.8 | 75.2 | +0.4 |
Модель C, которую все игнорировали из-за низких показателей на MTEB, на реальных данных работает лучше лидера. Это не погрешность измерений. Это фундаментальная проблема того, как мы оцениваем модели.
Если вы выбираете модель по таблицам из статей вроде "BGE M3 vs EmbeddingGemma vs Qwen3", вы рискуете выбрать не ту модель. Потому что эти сравнения основаны на устаревших метриках.
Почему это происходит? Механика обмана
Есть три причины, почему старые бенчмарки врут:
1. Переобучение на бенчмарк
Разработчики моделей знают, на каких данных их будут тестировать. Они могут (осознанно или нет) оптимизировать модель под конкретные датасеты. Это как знать вопросы экзамена заранее. В результате модель показывает отличные результаты на MTEB, но плохо обобщает на новые данные.
2. Однородность данных
Большинство бенчмарков используют данные одного типа — например, только новости или только научные статьи. В реальном RAG у вас смесь всего: PDF-документы, HTML-страницы, записи из CRM, логи чатов. Модель, обученная на однородных данных, теряется в разнообразии.
3. Искусственные запросы
В бенчмарках запросы часто формулируют исследователи — четко, структурированно, с использованием правильной терминологии. Пользователи пишут иначе: с ошибками, неполными предложениями, сленгом. Модель, которая отлично работает с академическими запросами, может не понять, что значит "глючит" или "не фурычит".
Как использовать RTEB при выборе модели
1 Сначала проверьте generalization gap
Возьмите топ-5 моделей по MTEB. Посмотрите их результаты на RTEB. Разница между двумя показателями — ваш риск. Если разрыв больше 10%, модель переобучена на бенчмарк. Берите ту, у которой разрыв минимальный, даже если абсолютный показатель на MTEB ниже.
2 Тестируйте на своих данных
RTEB — хороший индикатор, но идеального бенчмарка не существует. Создайте свой мини-тест из 100-200 реальных запросов и документов из вашего проекта. Это займет день, но сэкономит месяцы работы с неподходящей моделью.
3 Смотрите на разбивку по доменам
RTEB показывает результаты по 15 категориям данных. Если вы строите медицинский RAG, смотрите на медицинскую часть. Для юридического — на юридическую. Универсальных моделей не существует. Каждая имеет свои сильные и слабые стороны.
Что это значит для индустрии
RTEB — не просто еще один бенчмарк. Это симптом системной проблемы, о которой уже говорят в контексте кризиса бенчмарков.
Мы наблюдаем ту же историю, что и с языковыми моделями: сначала все гонятся за цифрами на популярных тестах, потом выясняется, что эти цифры мало что значат для реальных задач. Помните скандал с накруткой бенчмарков Llama? С эмбеддинг-моделями происходит то же самое, только менее заметно.
RTEB заставляет пересмотреть подход к оценке. Вместо вопроса "Какая модель лучше на MTEB?" нужно спрашивать "Какая модель лучше обобщает на незнакомые данные?" Это меняет правила игры.
Практические выводы (без воды)
- Перестаньте слепо доверять MTEB. Это устаревший стандарт, который не отражает реальное качество поиска.
- При выборе модели для продакшена смотрите на RTEB или создавайте свои тесты. Да, это дополнительная работа. Но дешевле, чем переделывать всю систему через полгода.
- Обращайте внимание на generalization gap. Маленький разрыв между MTEB и RTEB важнее высокого абсолютного значения на MTEB.
- Тестируйте модели на данных, максимально похожих на ваши продакшен-данныe. Если у вас медицинские документы — нужны медицинские тесты, а не общие.
- Не гонитесь за последней версией модели только потому, что она лидирует в таблице. Стабильность и предсказуемость важнее маркетинговых цифр.
Самый опасный сценарий: вы построили RAG-систему на модели с высоким MTEB-скором, запустили в продакшен, и она работает плохо. Вы начинаете оптимизировать пайплайн, менять параметры поиска, переписывать промпты. А проблема в модели. Месяцы работы впустую.
Что будет дальше
RTEB — первый шаг. Дальше появятся специализированные бенчмарки для разных доменов: медицинские, юридические, технические. Модели начнут оптимизировать под них. И цикл повторится.
Единственный способ не проиграть в этой гонке — понимать, что именно измеряет каждый бенчмарк, и выбирать метрики, соответствующие вашей задаче. Не существует универсального показателя качества. Есть инструменты, которые лучше или хуже решают конкретные проблемы.
Выбирайте модели не по таблицам, а по тому, как они работают с вашими данными. Все остальное — шум.