Когда ИИ сочиняет истории про высадку на Марс в 1965-м

Вы просите GPT-4 рассказать о первом полете человека на Марс. Он выдает красивый текст с датами, именами космонавтов и техническими деталями. Все звучит убедительно. Проблема в том, что этого полета никогда не было.

Это галлюцинация. Та самая, из-за которой юристы цитируют несуществующие прецеденты, а студенты сдают эссе с вымышленными источниками. До недавнего времени измерить, насколько конкретная модель склонна к таким вымыслам, было сложно. Тесты вроде MMLU или HellaSwag оценивали общие знания, но не проверяли фактологическую точность по конкретным утверждениям.

Исследователи из Google DeepMind решили эту проблему, выпустив FACTS Benchmark Suite. Это не просто еще один бенчмарк. Это инструмент, который заставляет языковые модели отвечать за каждое сказанное слово.

Что внутри черного ящика FACTS

FACTS — это акроним для Factual Accuracy and Consistency Testing Suite. Google создал его, чтобы ответить на простой вопрос: «Насколько мы можем доверять фактам, которые генерирует модель?»

Вот как это работает:

Датасет из 50,000 утверждений. Не случайных, а тщательно подобранных по 8 тематическим доменам: от науки и истории до поп-культуры и спорта.
Многоуровневая проверка. Каждое утверждение проверяется на трех уровнях: простое фактологическое соответствие (Grounding), контекстуальная точность (Contextual Accuracy) и временная согласованность (Temporal Consistency).
Автоматическая оценка. Вместо того чтобы нанимать армию асессоров, FACTS использует мощные LLM-судьи (например, Gemini Ultra) для проверки ответов. Это спорное решение, но оно делает процесс масштабируемым.

💡

Самый интересный аспект — это метрика «Grounding Score». Она измеряет, насколько ответ модели привязан к фактическим данным, а не является творческой интерпретацией или догадкой.

Лидерборд на Kaggle: кто меньше всех врет?

Google не стал держать результаты в секрете. Они выложили публичный лидерборд на Kaggle, где можно отслеживать, как разные модели справляются с тестом.

Текущие результаты предсказуемы и одновременно удивительны. Крупные закрытые модели вроде GPT-4o и Claude 3.5 Sonnet показывают высокие результаты. Но некоторые открытые модели отстают не так сильно, как можно было бы ожидать.

Модель (пример)	Тип	Ожидаемая точность	Что показывает FACTS
GPT-4o	Закрытая, большая	Высокая	Лидер по Grounding Score
Llama 3.1 405B	Открытая	Средне-высокая	Хорошие результаты, но проигрывает в контексте
Специализированная модель для чата	Настроенная	? (Черный ящик)	Может оказаться катастрофой. Проверять обязательно.

Лидерборд — это не просто табличка. Это инструмент для принятия решений. Если вы выбираете модель для исследовательского пайплайна, где важна точность, FACTS дает конкретные цифры, а не маркетинговые обещания.

Чем FACTS не похож на других

На рынке бенчмарков давно царит хаос. Почему FACTS — это не просто «очередной MMLU»?

TruthfulQA фокусируется на правдивости в ответах на каверзные вопросы (вроде «Может ли человек выжить, упав с 10-го этажа?»). FACTS проверяет обычные, прямые фактологические утверждения. Это ближе к реальному использованию.
HaluEval и подобные специализируются именно на обнаружении галлюцинаций. FACTS шире — он оценивает полный спектр фактологической точности.
Стандартные QA-бенчмарки (Natural Questions, TriviaQA) проверяют, нашла ли модель ответ в документе. FACTS проверяет, корректно ли модель этот ответ сформулировала и интерпретировала.

Главное отличие — прагматизм. FACTS создан для инженеров, которые разворачивают модели в продакшене, а не для академиков, публикующих статьи. Он интегрируется в пайплайны тестирования LLM-приложений.

Где FACTS ломается (и это нормально)

Идеальных инструментов не бывает. FACTS — не исключение.

Проблема 1: Судья — тоже LLM. Для оценки используется Gemini Ultra. Получается, что одна большая нейросеть проверяет другую. Если судья сглючит, результаты исказятся. Разработчики признают этот риск и используют калибровку и консенсус нескольких судей.

Проблема 2: Статичность данных. Мир меняется. Утверждение «президентом страны X является Y» может устареть через месяц. Датасет требует постоянного обновления, что ресурсоемко.

Проблема 3: Не ловит утонченный обман. Модель может дать технически верный, но вводящий в заблуждение ответ, опуская ключевой контекст. FACTS может пропустить такую полуправду.

Несмотря на недостатки, FACTS задает новый стандарт. Теперь, когда кто-то говорит «наша модель точна», можно спросить: «А какой у нее Grounding Score в FACTS?».

Кому на самом деле нужен этот бенчмарк?

Если вы просто играетесь с ChatGPT, FACTS вам не нужен. Но в этих случаях он становится критически важным:

Разработчики корпоративных RAG-систем. Вы встраиваете LLM в систему, которая отвечает клиентам по базе документов. Одна галлюцинация — и вы теряете контракт. FACTS помогает выбрать модель, которая меньше всего сочиняет. Это часть качественной оценки LLM-продукта.
Исследователи, сравнивающие архитектуры. Вы хотите понять, уменьшают ли новые методы обучения (например, RLHF или DPO) количество галлюцинаций. FACTS дает измеримый результат.
Покупатели AI-API. Вы выбираете между OpenAI, Anthropic, Google и другими провайдерами. Помимо цены и скорости, теперь можно сравнивать по фактологической надежности. Это убирает лотерейность из выбора модели.
Команды, занимающиеся тонкой настройкой. Вы выбрали базовую модель и дообучаете ее на своих данных. FACTS покажет, не научили ли вы ее врать еще больше в процессе.

Что дальше? Прогноз от того, кто устал от ИИ-брехни

FACTS Benchmark Suite — это симптом. Симптом того, что индустрия переходит от фазы «вау, он разговаривает!» к фазе «а можно ли ему доверять?».

В ближайший год ждите двух вещей:

Во-первых, интеграцию. FACTS станет такой же стандартной метрикой в отчетах, как MMLU или GSM8K. Поставщики моделей будут хвастаться своим Grounding Score так же, как сейчас хвастаются размером контекста.

Во-вторых, специализацию. Появятся бенчмарки для конкретных вертикалей: FACTS для медицины, FACTS для юриспруденции, FACTS для финансов. Потому что галлюцинация про побочный эффект лекарства — это не то же самое, что галлюцинация про дату выхода фильма.

Итог прост. FACTS Benchmark Suite — это не панацея от галлюцинаций. Это градусник. Он не лечит болезнь, но показывает температуру. А зная температуру, уже можно принимать решения: какую модель использовать, как ее дообучать и когда не стоит полагаться на ее ответ.

Следующий раз, когда вам будут продавать «самую точную модель на рынке», попросите результаты на FACTS. Если их нет, это первый признак того, что вам, возможно, врут. Ирония в том, что эту ложь уже не скроешь за красивыми словами — теперь для нее есть измеритель.

FACTS Benchmark Suite: Google DeepMind изобретает измеритель для ИИ-брехни