Системная предвзятость LLM-судей: эксперимент с 55 моделями

Вы попросили нейросеть-судью оценить ответы другой нейросети. Она ставит высокий балл. Но есть нюанс: судья и подсудимый — родственники. Одно семейство. И не просто родственники, а прямые наследники одной архитектуры и данных.

Именно это выявило масштабное открытое исследование: 55 моделей, 22 000 суждений, полный код и данные на GitHub. Результаты, мягко говоря, неудобные. Оказывается, LLM-судьи статистически значимо завышают оценки ответам, сгенерированным моделями той же семьи (Qwen хвалит Qwen, Mistral — Mistral). И занижают чужаков.

Это не про то, что открытый исходник лучше закрытого. Это про то, что мы доверяем автоматическим рейтингам, а они могут быть подтасованы самой природой LLM.

Как выглядит племенная лояльность в цифрах

Исследователи собрали 55 моделей — от крошечных 1B до флагманских 180B. Каждая оценивала слепые пары ответов на стандартные бенчмарки (скажем, математика, код, рассуждения). Ответы были от разных моделей, но судья не знал автора. Техника — blind grading с перестановкой порядка.

И вот шок: модели из семейства Qwen (Qwen3, Qwen-2.5 и т.д.) систематически предпочитали ответы других Qwen. Среднее смещение — от 8% до 15% в зависимости от задачи. Mistral-модели тоже грешили, хоть и меньше — около 5–7%. Llama — наиболее уравновешена, но и у неё обнаружился небольшой перевес в пользу родственников (3–4%).

Семейство модели-судьи	Предвзятость к своим (среднее)	Штраф к чужим (среднее)
Qwen (3.x, 2.5 и др.)	+12%	-9%
Mistral (Large, 8x22B, Nemo)	+6%	-5%
Llama (3.x)	+3%	-2%

Цифры взяты из сырых логов — исследователи выложили их целиком, любой может перепроверить. Это не шум, а статистически достоверный сигнал (p < 0.001 по парному t-тесту).

Почему это происходит и почему нам не всё равно

Причина, скорее всего, в том, что модели одной семьи обучались на похожих данных и используют схожие паттерны представления знаний. Для судьи ответ «своего» кажется более «правильным» — он узнаёт стиль, логику, даже обороты. А ответ чужой — чужеродный, и его оценивают строже.

Звучит логично, но есть нюанс: если вы используете LLM-судью для автоматической оценки других LLM (а это сейчас мейнстрим в AI-бенчмарках), вы рискуете получить систематические ошибки. Ваш рейтинг может показывать не качество модели, а то, насколько она похожа на судью.

Мы уже писали о том, как разные LLM по-разному судят судебные решения — там тоже были расхождения. А теперь добавился ещё один слой: даже внутри одного типа оценщика скрывается родственная предвзятость.

В другом нашем разборе — AI-SETT с 600 критериями — мы настаивали: мало одного рейтинга, нужна многомерная оценка. Новое исследование только подтверждает: слепое доверие к одной модели-судье — путь к самообману.

Что делать? Три неочевидных совета

Во-первых, не используйте одну модель-судью для оценки конкурентов. Если ваш бенчмарк основан на Qwen, не ждите, что он даст справедливую оценку Mistral. Миксуйте: пусть оценку дают сразу несколько моделей из разных семей, а финальный вердикт выводится голосованием.

Во-вторых, внедряйте слепые тесты и перемешивание порядка — это уже помогает снизить предвзятость. Подробный пайплайн такой оценки мы собирали в руководстве по автоматической оценке без слепых тестов (там, кстати, показано, как легко ошибиться, если не соблюдать процедуру).

В-третьих, проверяйте свою модель-судью на известном наборе предвзятостей. Например, модели игнорируют отрицания — это тоже искажает оценку. А если судья ещё и «свой» — эффект удваивается.

Опасный совет: не пытайтесь «подкрутить» свою модель-судью так, чтобы она лояльнее оценивала именно ваши модели. Это сделает бенчмарк бесполезным, и рано или поздно обман вскроется — данные-то открыты.

Будущее: бенчмарки, которые знают свою предвзятость

Исследование не просто показало проблему — оно предложило метрику «предвзятости судьи» (judge bias score). Каждая модель теперь может получить свой коэффициент искривления. И это не для того, чтобы отбраковывать «необъективные» модели, а чтобы калибровать результаты. Скоро мы, вероятно, увидим бенчмарки, которые публикуют поправки на предвзятость судьи — как в социологических опросах.

И ещё: в практике LLM Engineering оценка становится неотъемлемой частью пайплайна, и игнорировать собственную предвзятость инструмента — роскошь, которую разработчики больше не могут себе позволить.

Так что в следующий раз, когда какой-нибудь AI-лидер похвалится топ-1 в рейтинге LLM-as-a-judge, не спешите радоваться. Возможно, судья просто дал своему парню фору.

Подписаться на канал

Судья, который судит своих: исследование вскрыло системную предвзятость LLM при оценке

Как выглядит племенная лояльность в цифрах

Почему это происходит и почему нам не всё равно

Что делать? Три неочевидных совета

Будущее: бенчмарки, которые знают свою предвзятость

Подписывайтесь на наш канал!