Вы попросили нейросеть-судью оценить ответы другой нейросети. Она ставит высокий балл. Но есть нюанс: судья и подсудимый — родственники. Одно семейство. И не просто родственники, а прямые наследники одной архитектуры и данных.
Именно это выявило масштабное открытое исследование: 55 моделей, 22 000 суждений, полный код и данные на GitHub. Результаты, мягко говоря, неудобные. Оказывается, LLM-судьи статистически значимо завышают оценки ответам, сгенерированным моделями той же семьи (Qwen хвалит Qwen, Mistral — Mistral). И занижают чужаков.
Это не про то, что открытый исходник лучше закрытого. Это про то, что мы доверяем автоматическим рейтингам, а они могут быть подтасованы самой природой LLM.
Как выглядит племенная лояльность в цифрах
Исследователи собрали 55 моделей — от крошечных 1B до флагманских 180B. Каждая оценивала слепые пары ответов на стандартные бенчмарки (скажем, математика, код, рассуждения). Ответы были от разных моделей, но судья не знал автора. Техника — blind grading с перестановкой порядка.
И вот шок: модели из семейства Qwen (Qwen3, Qwen-2.5 и т.д.) систематически предпочитали ответы других Qwen. Среднее смещение — от 8% до 15% в зависимости от задачи. Mistral-модели тоже грешили, хоть и меньше — около 5–7%. Llama — наиболее уравновешена, но и у неё обнаружился небольшой перевес в пользу родственников (3–4%).
| Семейство модели-судьи | Предвзятость к своим (среднее) | Штраф к чужим (среднее) |
|---|---|---|
| Qwen (3.x, 2.5 и др.) | +12% | -9% |
| Mistral (Large, 8x22B, Nemo) | +6% | -5% |
| Llama (3.x) | +3% | -2% |
Цифры взяты из сырых логов — исследователи выложили их целиком, любой может перепроверить. Это не шум, а статистически достоверный сигнал (p < 0.001 по парному t-тесту).
Почему это происходит и почему нам не всё равно
Причина, скорее всего, в том, что модели одной семьи обучались на похожих данных и используют схожие паттерны представления знаний. Для судьи ответ «своего» кажется более «правильным» — он узнаёт стиль, логику, даже обороты. А ответ чужой — чужеродный, и его оценивают строже.
Звучит логично, но есть нюанс: если вы используете LLM-судью для автоматической оценки других LLM (а это сейчас мейнстрим в AI-бенчмарках), вы рискуете получить систематические ошибки. Ваш рейтинг может показывать не качество модели, а то, насколько она похожа на судью.
Мы уже писали о том, как разные LLM по-разному судят судебные решения — там тоже были расхождения. А теперь добавился ещё один слой: даже внутри одного типа оценщика скрывается родственная предвзятость.
В другом нашем разборе — AI-SETT с 600 критериями — мы настаивали: мало одного рейтинга, нужна многомерная оценка. Новое исследование только подтверждает: слепое доверие к одной модели-судье — путь к самообману.
Что делать? Три неочевидных совета
Во-первых, не используйте одну модель-судью для оценки конкурентов. Если ваш бенчмарк основан на Qwen, не ждите, что он даст справедливую оценку Mistral. Миксуйте: пусть оценку дают сразу несколько моделей из разных семей, а финальный вердикт выводится голосованием.
Во-вторых, внедряйте слепые тесты и перемешивание порядка — это уже помогает снизить предвзятость. Подробный пайплайн такой оценки мы собирали в руководстве по автоматической оценке без слепых тестов (там, кстати, показано, как легко ошибиться, если не соблюдать процедуру).
В-третьих, проверяйте свою модель-судью на известном наборе предвзятостей. Например, модели игнорируют отрицания — это тоже искажает оценку. А если судья ещё и «свой» — эффект удваивается.
Опасный совет: не пытайтесь «подкрутить» свою модель-судью так, чтобы она лояльнее оценивала именно ваши модели. Это сделает бенчмарк бесполезным, и рано или поздно обман вскроется — данные-то открыты.
Будущее: бенчмарки, которые знают свою предвзятость
Исследование не просто показало проблему — оно предложило метрику «предвзятости судьи» (judge bias score). Каждая модель теперь может получить свой коэффициент искривления. И это не для того, чтобы отбраковывать «необъективные» модели, а чтобы калибровать результаты. Скоро мы, вероятно, увидим бенчмарки, которые публикуют поправки на предвзятость судьи — как в социологических опросах.
И ещё: в практике LLM Engineering оценка становится неотъемлемой частью пайплайна, и игнорировать собственную предвзятость инструмента — роскошь, которую разработчики больше не могут себе позволить.
Так что в следующий раз, когда какой-нибудь AI-лидер похвалится топ-1 в рейтинге LLM-as-a-judge, не спешите радоваться. Возможно, судья просто дал своему парню фору.