Методы RLHF и конституциональная AI не учат модели быть честными?

Они учат модель избегать определённых классов правдоподобных последовательностей. Это надстройка, фильтр. Сама способность порождать артефакт из сжатого представления никуда не девается.

Галлюцинации LLM как артефакты сжатия: объяснение и последствия | 2026

Ваша нейросеть врёт. И у этого есть фундаментальная причина

Все ругают GPT-5, Claude 3.5 Sonnet или Gemini 2.0 Ultra за то, что они придумывают факты. Вы просите список статей, а модель выдает названия несуществующих исследований с поддельными DOI. Вы спрашиваете код, а в ответ получаете библиотеку, которой нет на свете. Мы называем это галлюцинациями, как будто нейросеть сошла с ума.

А что, если это не сбой? Что если это прямое следствие того, как устроена любая большая языковая модель? Давайте забудем про магию и антропоморфизм. LLM — это не разум. Это машина предсказания следующего токена, и её фундаментальная задача — сжатие данных.

Ключевая мысль: обучение LLM на триллионах токенов — это процесс построения максимально эффективной сжатой модели распределения вероятностей языка. И как в любом lossy-сжатии (JPEG, MP3), при восстановлении информации неизбежно возникают артефакты. Эти артефакты мы и называем галлюцинациями.

Почему сжатие? Давайте смотреть на байты

Интернет, который скормили моделям, весит петабайты. GPT-5, обученная на всем этом, занимает в памяти, скажем, 500 ГБ весов. Соотношение 1:10000. Как такое возможно? Только через сжатие с потерями.

Представьте, что вы пытаетесь упаковать в голову все книги мира, запоминая не каждую букву, а закономерности. \"После слов \'королевская\' часто идет \'власть\' или \'семья\'\". \"Формулы квантовой механики обычно содержат символ ħ\". Модель учит эти паттерны, а не факты. Когда вы потом просите её \"рассказать о квантовой теории\", она генерирует текст, наиболее правдоподобный с точки зрения этих паттернов. Но правдоподобие — не то же самое, что истина.

💡

Интересно, что семантические пайплайны пытаются бороться с этим, добавляя структурированный контекст, но это лишь надстройка над lossy-ядром.

Теорема Шеннона бьёт по голове. Или по весам модели

Клод Шеннон в 1948 году показал: существует предел, до которого можно сжать данные без потерь. Чтобы сжать сильнее, нужно терять информацию. LLM сжимают колоссально сильно, поэтому потери неизбежны.

Что теряется? Во-первых, точные факты. Даты, имена, цифры. Модель запоминает, что \"Наполеон умер в 19 веке\", но не точный год. Во-вторых, контекстуальные связи. Статья о \"ядерном синтезе\" и статья о \"солнце\" в данных могут быть далеко друг от друга. Модель усредняет, создает что-то среднее — и рождается артефакт: утверждение, что \"солнце работает на ядерном синтезе, который изобрели в 1950-х\". (Мы знаем, что солнце всегда работало на синтезе, а не его \"изобрели\").

Что сжимаем (вход)	Что хранится (веса модели)	Артефакт при генерации (выход)
Миллионы точных научных статей	Статистика совместной встречаемости терминов	\"Исследование 2024 года доказало, что чёрные дыры состоят из тёмной энергии\" (фейк)
Тысячи мануалов по программированию	Паттерны синтаксиса и API вызовов	Функция `library.optimize()` с несуществующими параметрами
Биографии всех исторических личностей	Приблизительные временные рамки и типичные атрибуты	\"Альберт Эйнштейн получил Нобелевскую премию за теорию относительности в 1921 году\" (нет, за фотоэффект)

Следствие первое: галлюцинации нельзя \"пофиксить\", можно только контролировать

Если галлюцинация — это артефакт сжатия, то её не устранить улучшением обучения или добавлением параметров. Можно лишь добавить фильтры. Современные подходы в 2026 году — это многоуровневая валидация. Например, архитектура двухслойной валидации, где вывод LLM проверяется второй моделью или детерминированным кодом.

Но проблема глубже. Сама модель не отличает факт от артефакта. Для неё это одинаково правдоподобные последовательности токенов. Это роднит LLM с методом CausaNova, где модель учат структурированно \"лгать\" (генерировать неправду, но с внутренней непротиворечивостью), потому что механизм тот же.

Предупреждение: Чем креативнее и свободнее задача (написание рассказа, генерация идей), тем полезнее эти \"артефакты\". Чем фактологичнее задача (юридический контракт, медицинский диагноз), тем они опаснее. Не путайте сферы применения.

Следствие второе: RAG и fine-tuning — это патчи поверх фундаментальной проблемы

RAG (Retrieval-Augmented Generation) пытается \"подшить\" к модели свежие, точные данные, минуя сжатое знание. Это как встроить в проигрыватель MP3 внешний источник lossless-аудио на конкретный трек. Работает, но локально. Модель всё равно будет галлюцинировать на стыке своего общего знания и вашего контекста.

Fine-tuning на узком корпусе документов пытается \"перенастроить\" веса, но это лишь добавляет новые паттерны поверх старых, создавая причудливые гибридные артефакты. Методы из статьи про работу с корпоративными данными показывают, как сложно заставить модель точно следовать структуре, а не своим шаблонам.

Где собака зарыта? В геометрии эмбеддингов

Недавние исследования, например, те, что описаны в материале про геометрию residual stream, показывают, что галлюцинации — это не случайный шум. Это системные искажения в многомерном пространстве смыслов. Факты, которые редко встречались в данных, \"притягиваются\" к более частым кластерам. Редкое заболевание может быть \"отнесено\" к симптомам частой болезни — вот вам и медицинская галлюцинация.

Это похоже на то, как JPEG искажает редкие цветовые переходы, смазывая их до более распространённых градиентов.

!Практический вывод: как жить с этой информацией

Перестаньте верить LLM на слово. Всегда перепроверяйте факты, особенно цифры, даты, имена, ссылки. Модель выдаёт самое вероятное продолжение, а не истину.
Проектируйте системы с предположением об ошибке. Используйте LLM для генерации гипотез, черновиков, идей. А проверку, утверждение и исполнение доверяйте детерминированным системам или человеку. Как в борьбе с эпистемической асимметрией.
Используйте силу артефактов там, где она нужна. Для брейнштормов, творчества, генерации вариантов текста — эти \"искажения\" и есть источник новизны. LLM решают задачи, недоступные человеку, именно потому, что видят мир через призму сжатых паттернов, а не через жёсткие факты.
Требуйте калибровки уверенности. Современные модели (на 2026 год) всё ещё плохо оценивают собственную уверенность в сказанном. Давление на вендоров в этом направлении — единственный путь.

Частые заблуждения и вопросы

Вопрос: Значит, если мы будем тренировать модели на ещё больших объёмах данных, галлюцинации исчезнут?

Нет. Это лишь улучшит сжатие (качество паттернов), но не изменит фундаментальную lossy-природу. Артефакты станут тоньше, правдоподобнее, но не исчезнут. Можно представить сжатие в 100000 раз вместо 10000 — потери всё равно будут.

Вопрос: Но есть же методы RLHF и конституциональная AI, которые учат модели быть честными!

Они учат модель избегать определённых классов правдоподобных последовательностей (например, \"я не могу ответить на этот вопрос\"). Это надстройка, фильтр. Сама способность порождать артефакт из сжатого представления никуда не девается. Модель может просто начать галлюцинировать более вежливо или обтекаемо, как в случаях опасного совета.

Вопрос: Если модель просто предсказывает токены, почему она иногда понимает наши намерения?

Потому что ваши намерения, выраженные в промпте, — это тоже последовательность токенов со статистическими корреляциями с определёнными ответами. Модель не понимает цель, она предсказывает, какие токены обычно следуют за такими, как ваши. Иногда это работает, иногда приводит к курьёзам, описанным в статье про игнорирование цели.

Что нас ждёт? Архитектурный сдвиг

Гонка параметров (1 трлн, 10 трлн...) упрётся в тот же предел. Будущее — в гибридных архитектурах, где небольшой, но строго контролируемый \"фактический\" модуль (база знаний, граф) работает в паре с большой \"компрессионной\" LLM для интерпретации и генерации естественного языка. Факты будут храниться lossless, а язык — генерироваться lossy-моделью.

Пока же помните: когда ваша LLM уверенно заявляет, что \"жирафы вымерли в 18 веке из-за изменения климата\", вы наблюдаете не глупость машины. Вы видите артефакт — призрак потерянной при сжатии информации, рябь на поверхности океана данных.

Работайте не с нейросетью, а с этой рябью. И тогда вы поймёте её настоящую силу.

Подписаться на канал

Галлюцинации LLM — это не баг, а артефакты сжатия. Вот почему это всё меняет