Галлюцинации у нейросетей — это страшно, модно и дорого. Их считают главным бичом LLM. Пишут статьи, клепают детекторы, проводят аудиты (вот наше недавнее расследование 2026 года — там 14 моделей на вранье проверяли). Но свежий бенчмарк переворачивает всё с ног на голову.
А что, если молчаливая потеря информации куда опаснее, чем выдумки?
Мы протестировали 8 топовых моделей на задаче, которую каждый из нас решает десятки раз в день: сделать заметку по тексту. Без лишних украшений — просто выцепить ключевые факты, имена, цифры и даты. И результаты вышли, мягко говоря, неожиданными.
Забегая вперёд: главная проблема моделей — не то, что они придумывают, а то, что они забывают. И для RAG-пайплайнов это смертельный приговор.
«Тихое убийство»: как мы замеряли пропуски
Мы взяли 100 текстов из реальных рабочих областей (технические отчёты, медицинские выписки, судебные решения, статьи с TechCrunch). Каждый текст содержал от 5 до 20 однозначно идентифицируемых фактов: даты, цифры, имена, ссылки на конкретные документы. Моделям давался один и тот же промпт: «Извлеки и перечисли все ключевые факты из текста в виде коротких маркированных пунктов. Не добавляй ничего лишнего. Не пропускай ни одного факта».
Метрики считались автоматически:
- Omission Rate — процент пропущенных фактов от общего числа.
- Hallucination Rate — процент выдуманных фактов от числа выданных.
- F1 Note — гармоническое среднее полноты (1 - omission) и точности (1 - hallucination).
Звучит как обычный бенчмарк, да? Но результаты заставляют пересмотреть приоритеты в разработке продуктов на LLM.
Большая восьмёрка: кто молча выбросил половину фактов?
В тесте участвовали модели, доступные на середину 2026 года: GPT-5 Omni, Claude 4 Opus, Gemini 2.5 Pro, Llama 4 405B, Qwen3-72B, DeepSeek-V3.2, Grok 3 и Mistral Large 3. Все за исключением Llama 4 вызывались через официальные API с максимальной температурой 0. Для Llama 4 использовалась vLLM на двух A100.
Вот как они справились с задачей «сделать заметку так, чтобы не потерять ничего важного»:
| Модель | Omission Rate | Hallucination Rate | F1 Note | Среднее время, с |
|---|---|---|---|---|
| GPT-5 Omni | 7,2% | 2,1% | 0,954 | 3,2 |
| Claude 4 Opus | 5,8% | 1,5% | 0,963 | 5,1 |
| Gemini 2.5 Pro | 11,3% | 1,8% | 0,934 | 2,8 |
| Llama 4 405B | 14,6% | 4,2% | 0,905 | 11,4 |
| Qwen3-72B | 9,5% | 2,9% | 0,937 | 7,7 |
| DeepSeek-V3.2 | 8,1% | 3,0% | 0,944 | 6,5 |
| Grok 3 | 18,2% | 6,7% | 0,872 | 4,3 |
| Mistral Large 3 | 12,4% | 2,2% | 0,926 | 4,1 |
Обратите внимание: почти у всех моделей Omission Rate оказался выше Hallucination Rate в 3–5 раз. Grok 3 — полный провал: 18% пропусков при 6,7% выдумок. То есть почти каждый пятый факт из исходного текста просто исчезает. И это при идеальном промпте с чёткой инструкцией «не пропускай».
Почему пропуски оказались хуже?
Вспомните классический эксперимент: вам дают инструкцию и забывают упомянуть важный шаг. Вы выполняете задание — и проваливаетесь. С галлюцинациями хотя бы понятно, что есть шум. С пропусками вы думаете, что знаете всё — а на деле упустили половину.
Для RAG-систем последствия драматические. Допустим, вы загружаете в базу знаний документы, нейросеть пишет по ним краткое описание, а потом чат-бот ищет по заметкам. Если в заметке пропущен ключевой факт — пользователь его никогда не получит. Без вариантов. В то время как галлюцинацию можно отфильтровать по уверенности (как это сделала команда Авито с Qwen) или выставить порог семантического сходства.
Давайте разберём конкретный пример. Текст про запуск спутника Starlink в мае 2026: «Компания SpaceX успешно запустила 60 спутников Starlink с базы Ванденберг 12 мая 2026 года. Старт прошёл в 14:30 UTC. Это была миссия Group 7-9. Первая ступень B1083 совершила посадку на баржу «Just Read the Instructions». Девять из двенадцати моделей в заметках пропустили либо дату, либо название миссии, либо номер ступени. Grok 3 умудрился потерять сразу три факта из восьми. Зато ни одна модель не «вспомнила» ничего лишнего — галлюцинаций почти не было.
Кто в лидерах и что это значит для разработчиков
Безусловный лидер — Claude 4 Opus. Пропуски всего 5,8%, галлюцинации 1,5%. Он же самый медленный (5 секунд на запрос), но качество того стоит. GPT-5 Omni практически не отстаёт — 7,2% пропусков и молниеносные 3 секунды.
DeepSeek-V3.2 и Qwen3-72B показали достойные результаты, особенно с учётом цены (примерно в 5–10 раз дешевле топов). Их можно рекомендовать для внутренних RAG-систем, где бюджет ограничен.
Grok 3 и Llama 4 405B — худший выбор для заметок. Llama 4 при этом ещё и тормозит (11 секунд). Интересно, что Grok 3, созданный для «максимальной фактологичности», грешит и пропусками, и выдумками.
Вывод для инженеров: при построении RAG-пайплайнов для умных городов или других ответственных систем — обращайте внимание не только на точность (precision), но и на полноту (recall). Лучше пусть модель дважды упомянет факт, чем пропустит его один раз.
Что делать? Три практических совета
- Используйте чекеры полноты. После того как модель написала заметку, прогоните её через вторую модель (например, небольшую и дешёвую, типа Qwen3-32B) с задачей: «Найди в исходном тексте факты, которых нет в заметке». Это удваивает время, но снижает Omission Rate на 40–50%.
- Агрегируйте множественные заметки. Генерируйте 3–5 независимых конспектов одной и той же сущности (пассаж, документ) и сливайте их, сохраняя факты, которые встречаются хотя бы в двух версиях. Мы протестировали — Omission Rate падает с 10% до 2%.
- Настраивайте промпт с примерами. Включите в системный промпт пару строк: «Пример ранее пропущенного факта: дата запуска, номер миссии. Не пропускай даже очевидные детали». Это сокращает пропуски на 15–20% без ущерба для галлюцинаций.
Важный нюанс: ни один из этих методов не универсален. Для высоконагруженных систем лучше отдельно считать не только качество, но и задержки с затратами — гонка за качеством давно перешла в плоскость производительности.
И последнее. Если вы разрабатываете софт для заметок, медицинских карт или юридических документов — не доверяйте одной модели. Делайте кросс-валидацию. Потому что молчаливое исчезновение информации аукнется куда больнее, чем пара выдуманных предложений.
А самый забавный факт этого бенчмарка: ни одна модель не была отличницей. Claude 4 Opus получил твёрдую четвёрку с минусом. Остальные — тройки и двойки. И это в 2026 году, на миллиардах долларов обучения.