Почему слепой тест лучше открытого сравнения LLM?

Слепой тест устраняет bias оценщиков. Когда эксперт не знает источник ответа (нейросеть или человек), он оценивает чистую полезность ответа, а не свои предубеждения о технологиях.

Какие модели лучше всего показали себя в юридических задачах?

В нашем тесте Claude 3 Opus показал лучшие результаты по практической полезности, GPT-4 Turbo был близок к нему. Специализированные "юридические" модели часто проигрывают общим из-за академического подхода вместо практического.

Можно ли полностью заменить юриста нейросетью?

Нет. Нейросети хорошо обрабатывают большие объемы текста и шаблонные задачи, но плохо справляются с пониманием контекста, отношений с клиентом и неявными знаниями о практике фирмы. Это инструмент усиления, а не замена.

Как часто нужно перетестировывать модели?

Каждые 3-6 месяцев. Модели обновляются, появляются новые версии. Также меняются потребности фирмы и типы задач. Регулярное тестирование помогает оставаться в курсе возможностей.

Human-eval LLM для юридических задач: методология, результаты, выводы

Зачем юристам слепой тест LLM? (Спойлер: все модели лгут)

В юридической фирме, где я консультирую по технологиям, появилась проблема. Партнеры просили выбрать "лучшую нейросеть для юристов". ChatGPT? Claude? Новая локальная модель с юридическим финтюном? Все производители кричат "наша модель лучше всех справляется с юридическими задачами!". Но когда юрист спрашивает "а что значит 'лучше'?", наступает тишина.

Мы решили проверить сами. Не по красивому маркетингу, не по голословным заявлениям, а по реальной работе с реальными задачами реальных юристов. Так родилась идея слепого human-eval теста.

Важное уточнение: мы не тестировали знание законов. Это бессмысленно - законы меняются, а модели тренируются на данных вчерашнего дня. Мы тестировали юридическое мышление - способность анализировать, структурировать, видеть риски и предлагать решения.

Первый провал: как НЕ надо тестировать LLM для юристов

Первая попытка провалилась. Мы взяли стандартные юридические кейсы из учебников, скормили их разным моделям и попросили коллег-юристов оценить ответы. Результат? Все модели получили примерно одинаковые оценки, все ответы выглядели "в целом правильными", и никто не мог сказать, какая модель действительно полезнее в работе.

Проблема в дизайне теста. Когда юрист видит ответ LLM и знает, что это ответ LLM, включается режим "поиска ошибок". Но в реальной работе юрист не знает, откуда пришел ответ - от стажера, от коллеги или от нейросети. Ему нужно принять решение на основе этого ответа. Вот этот контекст мы и упустили в первый раз.

💡

Ключевой инсайт: юристы оценивают не "правильность" ответа, а его полезность для принятия решения. Ответ может быть технически верным, но бесполезным - потому что не учитывает контекст дела, риски клиента или практику судов.

Методология слепого теста: от идеи до реализации

Мы полностью переработали подход. Вместо сравнения моделей "в вакууме" мы создали ситуацию, максимально приближенную к реальной работе юриста. Вот как это работает.

1Подготовка задач: не учебники, а реальная почта

Взяли 12 реальных задач из практики фирмы (с согласия клиентов, разумеется, все обезличено). Не абстрактные "проанализируйте договор", а конкретные запросы:

"Клиент прислал письмо от контрагента с угрозой расторжения договора. Нужно составить ответ, который защитит наши интересы, но не сожжет мосты"
"В договоре аренды нашли спорную формулировку. Нужно объяснить клиенту-неюристу риски простыми словами и предложить три варианта действий"
"Суд первой инстанции вынес странное решение. Нужно подготовить аргументы для апелляции, выделив самые сильные позиции"

Каждая задача содержала исходные документы, переписку, контекст. Как в реальной жизни - информации много, но не вся релевантна.

2Выбор моделей: китовая сборка

Отобрали 5 моделей:

Модель	Тип	Зачем включили
GPT-4 Turbo	Облачная	Базовый уровень, с чем сравнивать
Claude 3 Opus	Облачная	Репутация в сложных reasoning задачах
Mixtral 8x22B	Локальная	Самый мощный из доступных локально
Law LLM (fine-tuned)	Специализированная	Заявлена как "юридическая" модель
Обычный юрист-стажер	Человек	Контрольная группа. Да, мы включили человека.

Да, вы правильно прочитали. Мы включили в тест реального юриста-стажера. Его ответы обрабатывались так же, как ответы моделей - анонимно, в общем пуле. Чтобы понять: нейросеть действительно лучше человека или мы просто верим в магию ИИ?

3Слепая оценка: никаких подсказок

Вот самая важная часть. Мы пригласили 8 опытных юристов (от 5 до 20 лет практики). Каждому дали 12 задач и 5 ответов на каждую задачу. Ответы были закодированы случайными идентификаторами (Model-A, Model-B и т.д.).

Инструкция для оценщиков: "Представьте, что это ответы ваших коллег/помощников. Выберите лучший ответ для работы с клиентом. Оцените по трем критериям:"

Практическая полезность - могу ли я использовать этот ответ в работе с клиентом прямо сейчас?
Полнота анализа - учтены ли все важные аспекты, риски, альтернативы?
Ясность изложения - понятно ли это клиенту-неюристу?

Никто из оценщиков не знал, какие ответы от нейросетей, какие от человека. Никто не знал, какие модели участвуют. Полная слепота.

Критически важный момент: мы не просили оценивать "правильность". Юристы ненавидят этот вопрос. В праве редко есть однозначно "правильные" ответы. Есть более или менее эффективные, более или менее рискованные, более или менее соответствующие стратегии клиента.

Результаты, которые всех удивили (включая нас)

Собрали 480 оценок (8 юристов × 12 задач × 5 ответов). Проанализировали. Вот что получилось.

Победитель неожиданный, но закономерный

Claude 3 Opus занял первое место по общей полезности. Но с небольшим отрывом. Всего на 8% выше, чем GPT-4 Turbo. Главное преимущество Claude - структура ответов. Юристы отмечали: "Этот ответ проще превратить в письмо клиенту или в проект документа".

Mixtral (локальная модель) показал себя достойно - всего на 15% хуже Claude. Но с важной оговоркой: в задачах на анализ сложных договоров Mixtral иногда "галлюцинировал" - придумывал пункты, которых не было в исходном документе. Юристы это сразу замечали: "Ответ хороший, но он ссылается на пункт 7.3, которого в договоре нет".

Позиция	Модель/Участник	Средний балл (1-10)	Ключевое преимущество
1	Claude 3 Opus	8.2	Структура и практичность
2	GPT-4 Turbo	7.6	Скорость и ясность
3	Юрист-стажер (человек)	7.1	Понимание контекста фирмы
4	Mixtral 8x22B	6.9	Локальность, но есть галлюцинации
5	Law LLM (специализированная)	5.8	Знает термины, но не понимает задач

Самый болезненный результат

Специализированная "юридическая" LLM заняла последнее место. Хуже, чем локальная модель. Хуже, чем человек. Почему?

Юристы объяснили: "Эта модель сыплет терминами, цитирует законы, но не понимает, чего от нее хотят. Она дает академический ответ, а не практическое решение".

Звучит парадоксально: модель, дообученная на юридических текстах, хуже справляется с юридическими задачами, чем общие модели. Но если подумать - логично. Юридические тексты (законы, судебные решения, доктрина) - это описание того, как должно быть. А работа юриста - это работа с тем, как есть. С клиентами, которые не читали законов. С контрагентами, которые нарушают договоры. С судьями, которые принимают странные решения.

💡

Это перекликается с темой из другой нашей статьи - Почему большие языковые модели не понимают, чего вы на самом деле хотите. Модель может прекрасно знать закон, но не понимать, что клиенту нужно не цитирование статьи, а решение его проблемы.

Человек против машины: неожиданная правда

Юрист-стажер занял третье место. Обогнал две нейросети. Его сильная сторона: понимание неявного контекста. В задачах, где нужно было учесть "политику фирмы", "отношения с клиентом", "историю переговоров" - человек был лучше.

Но в задачах на обработку больших объемов текста (анализ 50-страничного договора, поиск рискованных формулировок) - нейросети были заметно лучше. Они не устают, не пропускают детали, видят паттерны.

Ошибки, которые все допускают при тестировании LLM

Проведя этот эксперимент, мы увидели типичные ошибки в оценке LLM для профессиональных задач.

Ошибка 1: Тестировать знание вместо мышления

Большинство тестов LegalTech-стартапов проверяют: "Знает ли модель статью 310 ГК РФ?" Это бессмысленно. Статью знает Google. Юрист нужен не для знания статей, а для их применения в конкретной ситуации.

Ошибка 2: Давать моделям идеальные вводные

В реальной жизни клиент присылает мессенджером голосовое сообщение, потом пять писем с уточнениями, потом сканы документов плохого качества. Задача юриста - вычленить суть из этого хаоса. Если давать моделям чистые, структурированные задачи - мы теряем этот аспект.

Ошибка 3: Оценивать ответы, зная их источник

Как только оценщик знает, что ответ от нейросети, включается bias. Либо излишняя строгость ("нейросеть, значит, наверняка ошиблась"), либо излишнее снисхождение ("ой, какая умная нейросеть"). Слепой тест убирает этот эффект.

Как запустить такой тест в своей компании

Если вы хотите провести подобный тест для своей юридической фирмы или корпоративного юротдела, вот краткий чек-лист.

Соберите реальные задачи из последних 3-6 месяцев. Не менее 10, лучше 15. Убедитесь, что они разнообразны (договоры, претензии, консультации, судебные документы).
Выберите 3-4 модели для теста. Обязательно включите одну облачную (GPT или Claude), одну локальную, и если есть - специализированную для вашей отрасли.
Подготовьте идентичные условия для всех моделей. Одинаковые промпты, одинаковые системные инструкции, одинаковые ограничения по длине ответа. Мы использовали подход из статьи Коллекция промптов для тестирования и сравнительного анализа локальных LLM.
Пригласите 5-7 оценщиков разного уровня (партнеры, старшие юристы, средние). Важно: они не должны быть вовлечены в подготовку теста.
Проведите слепую оценку. Раздайте задачи и перемешанные ответы. Дайте четкие критерии оценки (полезность, а не правильность).
Проанализируйте результаты не только по общим баллам, но и по типам задач. Какая модель лучше справляется с договорами? Какая - с претензиями? Какая - с объяснениями для клиентов?

Важное предупреждение: не делайте выводы на основе маленькой выборки. 3 задачи - это случайность. 10 задач - уже тенденция. 15 задач - достаточно для принятия решения.

Что мы поняли и что будем делать дальше

Главный вывод: нет "лучшей модели для юристов". Есть модель, которая лучше подходит для конкретных типов задач в конкретной фирме с конкретными юристами.

В нашей фирме теперь используется гибридный подход:

Claude 3 Opus - для подготовки сложных документов и аналитических записок
GPT-4 Turbo - для быстрых ответов на стандартные вопросы, шаблонных писем
Локальная модель (теперь тестируем новые версии) - для работы с конфиденциальными документами, которые нельзя отправлять в облако

И самое важное: мы не заменяем юристов нейросетями. Мы используем нейросети как инструмент, который усиливает юристов. Как калькулятор усиливает бухгалтера. Калькулятор не принимает финансовых решений - он только считает. Нейросеть не дает юридических советов - она только обрабатывает информацию.

Следующий шаг - тестирование reasoning-фреймворков. Мы уже смотрим на KEF и OpenAI o3, чтобы понять, можно ли улучшить юридическое мышление моделей без дорогого дообучения.

И последнее наблюдение. После теста один из партнеров сказал: "Теперь я понимаю, почему мне не нравились ответы от нейросетей. Они были правильные, но бесполезные. Как если бы я спросил 'как доехать до суда', а мне ответили 'на транспорте'. Технически верно, но никуда не годится".

Вот именно эту разницу - между технически верным и практически полезным - и должен измерять любой тест LLM для профессиональных задач.

💡

Если вы проводите подобные тесты в других профессиональных областях (медицина, финансы, инжиниринг) - подход тот же. Слепая оценка практической полезности, а не теоретической правильности. Реальные задачи вместо учебных. Оценка экспертами, которые не знают источник ответа.

Слепой тест LLM для юристов: как мы устроили соревнование моделей и что из этого вышло