Провал LLM в юриспруденции: разбор LabourLawLLM и бенчмарка

Представьте, что вы спрашиваете у ChatGPT, можно ли уволить сотрудника за опоздание на 15 минут. Модель вежливо изложит общие принципы трудового права, процитирует несуществующие статьи ТК и сгенерирует убедительный, но абсолютно ложный ответ. В медицине такая ошибка убьет пациента. В юриспруденции — разрушит компанию.

Почему общие модели лгут в законе

Общие LLM обучаются на интернете. Интернет полон юридических советов с форумов, упрощенных пересказов законов и откровенных ошибок. Модель впитывает этот винегрет и учится генерировать правдоподобный текст, а не точные правовые нормы. Это как изучать хирургию по сериалу «Доктор Хаус».

Главная проблема не в галлюцинациях. Проблема в том, что модель не отличает точную цитату закона от её народной интерпретации. Она оптимизирована для связности, а не для юридической точности.

Китайские исследователи из Fudan University и Shanghai AI Laboratory это поняли. Они взяли общую модель Qwen2.5-7B-Instruct и попросили её решить реальные задачи из трудового права. Результат был предсказуемо ужасен. Тогда они сделали две вещи: собрали специализированный бенчмарк и построили LabourLawLLM.

LabourLawLLM: архитектура, которая не фантазирует

LabourLawLLM — это не новая модель с нуля. Это Qwen2.5-7B, дообученная методом Supervised Fine-Tuning (SFT) на 52 тысячах высококачественных примеров по трудовому праву Китая. Но фишка не в объёме данных, а в их структуре.

Из чего состоят данные

Точные тексты законов и подзаконных актов. Не пересказ, а оригинальные формулировки.
Аннотированные судебные решения. С выделением ключевых правовых позиций.
Диалоги юристов с клиентами. Реальные вопросы и ответы, очищенные от ошибок.
Синтетические данные, сгенерированные более мощной моделью (Qwen2.5-72B-Instruct) и проверенные экспертами.

Звучит как обычный пайплайн подготовки данных? Вот и нет. Большинство команд просто скребут интернет и надеются, что SFT всё починит. Китайцы пошли дальше — они разбили все задачи на 12 типов и для каждого типа создали свой формат обучения. Это не просто тонкая настройка, это хирургическая операция на архитектуре знаний модели.

💡

Это тот случай, когда семантический пайплайн решает всё. Без чёткой структуры данных вы получите просто ещё одну болтливую модель с юридическим уклоном.

Бенчмарк, который не даст схалявить

Общие бенчмарки вроде MMLU измеряют энциклопедические знания. Юридический бенчмарк должен измерять точность, актуальность и глубину понимания контекста. Китайцы создали LabourLawBench — 12 типов задач, которые покрывают всю практику трудового права.

Тип задачи	Пример	Почему это сложно для общих LLM
Statute Recitation	Дословно процитировать статью 46 ТК РФ об увольнении	Модели склонны перефразировать, теряя юридическую силу формулировок
Case-Type Prediction	Классифицировать спор: восстановление на работе или взыскание зарплаты?	Требует понимания тонких процессуальных различий
Legal Advice	Дать совет работнику, которого хотят уволить по сокращению	Общие LLM дают этически корректные, но юридически неполные ответы
Document Drafting	Составить исковое заявление о восстановлении на работе	Нужно знать точные реквизиты и структуру документа

LabourLawLLM обогнала общие модели на этом бенчмарке с разгромным счётом. Но главное не цифры, а качество ошибок. Общая модель ошибается системно — путает сроки, изобретает основания, игнорирует исключения. LabourLawLLM ошибается там, где ошиблись бы юристы-люди: в сложных случаях с противоречивой судебной практикой.

Что это значит для разработчиков LegalTech

Вы не сможете взять GPT-4, написать умный промпт и получить юридически точную систему. Не выйдет. Архитектура общих моделей не для этого.

Вам нужна специализированная SFT-модель. И вот как её строить (или не строить):

Шаг 1: Забудьте про скрейпинг интернета

Данные должны быть чистыми, структурированными и верифицированными экспертами. Один неточный прецедент в обучающей выборке — и модель начнёт тиражировать ошибку в тысячах ответов.

Шаг 2: Создайте свой бенчмарк

MMLU или даже профессиональные экзамены не отлавливают специфические ошибки в вашей юрисдикции. Нужны задачи, которые отражают реальные запросы пользователей: от расшифровки аббревиатуры в приказе до анализа перспектив кассационной жалобы.

Шаг 3: Тестируйте на опасных случаях

Не на общих вопросах. Давайте модели сценарии, где ошибка приведёт к реальному ущербу. «Как уволить сотрудника на больничном?» — общая модель может дать инструкцию, нарушающую закон. Специализированная должна отказаться отвечать и разъяснить запрет.

Это та самая ситуация, когда понимание боли пользователя не спасает. Модель может сочувствовать работнику, но если она не знает точного порядка обращения в трудовую инспекцию — её совет бесполезен.

А что с другими областями права?

LabourLawLLM — только начало. Трудовое право относительно структурировано. Представьте себе модель для налогового права, где каждый год меняются ставки, формы отчётности и толкования. Или для процессуального права, где нужно учитывать практику конкретного судьи.

Общие LLM здесь обречены. Они не успевают за обновлениями, не понимают местной специфики и всегда выбирают самый вероятный, а не самый точный ответ.

💡

Если вы думаете, что проблема в размере модели, и ждёте GPT-5, чтобы он «наконец выучил все законы», вы ошибаетесь. Проблема в архитектуре знаний. Общая модель никогда не будет на 100% точной в узком домене — это противоречит её цели быть общей.

Что делать прямо сейчас

Не пытайтесь дообучить Llama или Qwen на своих данных без глубокой переработки этих данных. Первый шаг — создание бенчмарка. Возьмите 100 реальных кейсов из вашей практики, разбейте их на типы задач и протестируйте доступные модели. Увидите те самые системные ошибки.

Второй шаг — сбор эталонного датасета. Не просто документы, а структурированные Q&A, цепочки рассуждений, аннотированные цитаты. Это дорого. Но дешевле, чем судебный иск из-за ошибки AI-юриста.

Третий шаг — выбор базовой модели. Не самая большая, а та, которая лучше всего следует инструкциям. Qwen2.5-Instruct, Command R+ или локальные модели с Tool Calling для интеграции с базами знаний.

И да, вам понадобятся юристы-эксперты. Много. На всех этапах. Без них вы создадите ещё одну опасную игрушку.

Вопросы, которые вы хотели задать

Можно ли использовать LabourLawLLM для российского права?

Нет. Модель обучена на китайском трудовом праве. Архитектура и подход повторяемы, но данные должны быть своими. Попытка дообучить её на российских законах без очистки предыдущих знаний приведёт к катастрофе.

Хватит ли 7 миллиардов параметров для сложных правовых задач?

Для точного цитирования и классификации — да. Для анализа неочевидных судебных перспектив — нет. Но 7B-модель можно развернуть локально, что критично для конфиденциальности юридических данных. Иногда практичность важнее энциклопедичности.

Как тестировать такую модель, если ответы недетерминированы?

Нужно тестировать не текстуальное совпадение, а семантическую точность и полноту. Используйте методики тестирования недетерминированных LLM: проверку наличия обязательных элементов, отсутствия запрещённых утверждений, корректности ссылок на нормы.

Это конец для general-purpose LLM в LegalTech?

Нет. Это конец их использованию в качестве финального источника истины. Общие модели отлично справляются с первичным анализом документов, извлечением сущностей, генерацией черновиков. Но финальное решение, проверка точности, работа с прецедентами — за специализированными системами.

Итог прост. Юриспруденция — это не язык. Это система жёстких правил, исключений и процедур. Обучать модель на языке интернета, чтобы она понимала право, — всё равно что учить физику по комиксам. LabourLawLLM показала, что специализированные SFT-модели работают. Теперь вопрос в том, кто первым построит такую для вашей страны. И сколько ошибок наделают по дороге те, кто попытается срезать углы.

Почему общие LLM проваливаются в юриспруденции: разбор архитектуры LabourLawLLM и специализированного бенчмарка