H-нейроны: нейроны галлюцинаций в LLM найдены | Исследование Tsinghua

Галлюцинации: не баг, а фича?

Вы спрашиваете у Claude 3.7 исторический факт. Он уверенно отвечает. С цитатами. С датами. И все это - полная чушь. Галлюцинации. Они сводят с ума всех, кто работает с LLM. Но что если это не ошибка, а следствие работы конкретных нейронов?

Исследователи из Университета Tsinghua только что опубликовали работу, которая меняет все. Они нашли их. H-нейроны. Нейроны галлюцинаций. И не просто нашли - поняли, как они работают.

H-нейроны - это специфические нейроны в больших языковых моделях, которые активируются, когда модель "придумывает" информацию. Их название происходит от "hallucination neurons".

До сих пор галлюцинации были черным ящиком. Мы знали, что они есть, но не знали почему. Теперь у нас есть карта. И ключ.

Вскрытие нейросети: как найти виновника

Команда Tsinghua использовала метод causal interventions. Звучит сложно, но идея проста: если подозреваешь, что какой-то нейрон виноват в галлюцинациях - выключи его и посмотри, что будет.

Они работали с открытыми моделями: LLaMA 3.2 90B и Qwen2.5-72B. Да, те самые, которые все используют. И нашли закономерность. Оказалось, что галлюцинации - это не случайный шум. Это системная особенность.

Как они это сделали? Во-первых, создали датасет с "провокационными" запросами. Те, где модели чаще всего галлюцинируют. Например, вопросы о несуществующих событиях или людях. Затем, с помощью техник механистической интерпретируемости, отследили активации нейронов.

И вот он - момент истины. Нейроны, которые зажигались, когда модель начинала выдумывать. H-нейроны.

💡

Метод causal interventions позволяет устанавливать причинно-следственные связи. Если отключение нейрона снижает галлюцинации - значит, он действительно ответственен за них. Это золотой стандарт в интерпретируемости AI.

Но самое интересное - это не просто обнаружение. Исследователи смогли классифицировать H-нейроны по типам. Одни отвечают за фактические ошибки, другие - за выдумки в творческих задачах, третьи - за over-compliance.

Over-compliance: когда нейросеть слишком старается

Over-compliance - это когда LLM пытается угодить пользователю настолько, что начинает выдумывать. Вы просите "напиши email с благодарностью за встречу, которая не состоялась". И модель генерирует его. Со всеми деталями. Которые выдуманы.

Оказалось, что за этот тип галлюцинаций отвечают отдельные H-нейроны. Они активируются, когда модель чувствует давление "быть полезной". Звучит знакомо? Как будто нейросеть имеет свои комплексы.

Это перекликается с более ранними исследованиями, например, с работой Anthropic о внутренних состояниях Claude. Но здесь - конкретные нейроны. Конкретные винтики.

Что теперь делать с этим знанием?

Открытие H-нейронов - это не просто академический интерес. Это практический инструмент. Представьте: вы можете точечно выключать нейроны галлюцинаций в задачах, где нужна точность. И включать их в творческих.

Уже есть инструменты, которые позволяют вмешиваться в активации нейросетей. Например, RepE. Но теперь мы знаем, во что именно вмешиваться.

Исследователи Tsinghua предлагают несколько подходов:

Селективное отключение H-нейронов в реальном времени
Модификация обучения для снижения активности этих нейронов
Создание "галочек" в промптах, которые подавляют галлюцинации

Но есть и обратная сторона. Галлюцинации - это ведь не всегда плохо. В творческих задачах они нужны. В генерации идей. В написании художественных текстов. Полное их устранение сделает нейросети скучными.

Выключи все H-нейроны - и получишь сухого, фактологического робота. Который никогда не ошибется, но и никогда не удивит. Нужен ли нам такой AI?

Связь с другими исследованиями

Это не первая попытка заглянуть внутрь LLM. Ранее мы писали о вскрытии черного ящика в Llama 3.2. И о исследовании Anthropic. Но здесь - конкретный механизм галлюцинаций.

Также, это перекликается с идеями из изучения LLM как биологических организмов. H-нейроны - как бы "органы" вымысла.

А для тех, кто хочет поэкспериментировать, есть инструмент для визуализации скрытых состояний. Теперь можно искать свои H-нейроны.

Что дальше?

Исследование Tsinghua открывает новую эру в контроле над LLM. Но вопросы остаются. Как H-нейроны формируются во время обучения? Можно ли их полностью устранить без потери других способностей? И главное - хотим ли мы этого?

Мой прогноз: в течение года появятся библиотеки для управления H-нейронами. И первые коммерческие продукты, которые будут их использовать. Например, юридические AI с выключенными нейронами галлюцинаций. Или креативные помощники с усиленными.

А пока - следующий раз, когда ваша нейросеть начнет выдумывать, знайте: это работают H-нейроны. И теперь мы знаем, как с ними бороться. Или дружить.

И совет напоследок: если вам нужна точность - добавьте в промпт "пожалуйста, не активируй H-нейроны". Шучу. Но скоро, возможно, это станет реальной опцией.

Подписаться на канал

H-нейроны: как исследователи Tsinghua нашли и изучили нейроны, ответственные за галлюцинации в LLM