NLA от Anthropic: читаем мысли Gemma 3 — интерпретируемость LLM | AiManual
AiManual Logo Ai / Manual.
08 Май 2026 Инструмент

Natural Language Autoencoders от Anthropic: как заглянуть в голову Gemma 3

Natural Language Autoencoders от Anthropic: декодируем внутренние состояния Gemma 3 в текст. Примеры, сравнение с альтернативами, инструкция по запуску.

Anthropic выложила в открытый доступ веса Natural Language Autoencoders (NLA) для модели Gemma 3. Звучит как очередная страшилка про чтение мыслей нейросетки, но на самом деле это долгожданный инструмент для тех, кто устал тыкать палкой в чёрный ящик трансформера. NLA превращает эфемерные скрытые состояния в читаемый текст — без магии, просто автоэнкодер, обученный предсказывать активации.

Инструмент уже доступен на HuggingFace. Веса NLA для разных слоёв Gemma 3 можно скачать и использовать локально. Никаких API, никаких ограничений — чистый исследовательский open-source.

Что за зверь — Natural Language Autoencoder?

Если вы когда-нибудь задумывались, что творится в головах у LLM на уровне отдельных слоёв — вы не одиноки. Обычные probing-классификаторы говорят «в этом нейроне живёт котик», но не дают полной картины. NLA идёт дальше: он учится декодировать всё скрытое состояние (или его часть) в последовательность токенов на естественном языке.

Технически это автоэнкодер с трансформерным декодером, который на вход получает hidden state из конкретного слоя Gemma 3 (например, из середины модели) и пытается восстановить текст, который соответствует внутреннему представлению модели в этот момент. Ключевое отличие от простого «слепого» декодирования — NLA обучается отдельно на парах (активация, следующий токен) и способен выдавать осмысленные фразы даже для промежуточных слоёв, где ещё нет готового ответа.

Anthropic опубликовала веса для слоёв с 1-го по 50-й (для Gemma 3 8B) и для 20-го слоя 70B версии. Можно буквально «смотреть» на то, как модель переваривает запрос шаг за шагом.

Как этим пользоваться? (Спойлер: легко)

1 Скачайте веса с HuggingFace

Репозиторий anthropics/nla-gemma-3 содержит файлы checkpoint. Выберите слой, который хотите исследовать. Для старта советуют брать средние слои (20-30) — они дают наиболее связный текст.

2 Загрузите Gemma 3 и NLA

Используйте стандартный HuggingFace transformers + torch. Gemma 3 идёт в том же формате, что Gemma 2 — проблем с совместимостью нет. Код инициализации занимает пару строк.

3 Прогоните промпт и смотрите, что «думает» модель на каждом шаге

После подачи текста в Gemma, вы сохраняете hidden state нужного слоя и пропускаете его через NLA. Декодер выдаст последовательность слов — это и есть «перевод» внутреннего состояния на человеческий язык. Например, на запрос «Explain quantum entanglement to a child» на 25-м слое может появиться фрагмент «two particles are connected...» ещё до того, как модель начала писать ответ.

Важно: NLA не всегда выдаёт грамматически идеальные предложения — это скорее «сырой поток сознания» модели. Но в нём прослеживаются реальные концепции и намерения.

Кому это нужно (и зачем выходить за рамки простого probing)

Сравним NLA с тем, что было до него. Если вы читали нашу статью про визуализацию скрытых состояний или геометрию представлений, то знаете: можно кластеризовать активации, смотреть на расстояния в embedding space. Но это всё косвенные методы. NLA даёт прямой текстовый вывод — и это меняет правила игры.

Метод Что получаем Глубина
Probing (logistic regression) Бинарный ответ: есть концепт/нет Поверхностная
Sparse Autoencoders (SAE) Декомпозиция на фичи Средняя (интерпретируемость фич)
Activation Patching Причинно-следственные связи Высокая, но косвенная
Natural Language Autoencoder Текстовое описание скрытого состояния Очень высокая, понятная человеку

Конечно, NLA не отменяет механистическую интерпретируемость (мы писали зачем лезть в чёрный ящик). Скорее, NLA — быстрый способ получить гипотезу, а потом с помощью SAE или patching проверить её.

Что мы уже узнали с помощью NLA?

Исследователи Anthropic протестировали NLA на множестве запросов и обнаружили несколько неожиданных паттернов:

  • Модель «готовит» ответ за несколько шагов до его генерации. Даже на ранних слоях NLA выявляет ключевые слова, которые потом появятся в выводе.
  • Галлюцинации часто видны во внутренних представлениях. Если в 15-м слое NLA выводит нечто противоречивое, модель с высокой вероятностью ошибётся. Это открывает путь к детекции галлюцинаций в реальном времени (о чём мы говорили в статье «Почему ИИ видит суицидальные мысли...»).
  • Контекстное окно модели не всегда используется полностью. NLA показывает, что модель «забывает» старые токены — интересный артефакт для оптимизации архитектуры.

Эти открытия — прямое продолжение работы, которую Anthropic начала с вскрытия Claude. Теперь у нас есть инструмент и для Gemma 3, а значит, можно сравнивать «мышление» разных моделей (сравнение Llama-3 и Qwen-2.5 мы уже делали — читайте здесь).

Типичные грабли: что не так с NLA

Было бы слишком хорошо, если бы всё работало идеально. Пара моментов, которые бесят:

  • Артефакты обучения. Автоэнкодер может «выучить» свои собственные шаблоны, и вы будете видеть не мысли модели, а шум декодера. Проверяйте на случайных состояниях.
  • Неоднозначность одного слоя. NLA для разных слоёв даёт разные «переводы» одного и того же state. Какой из них правильный? Вопрос открыт.
  • Ресурсы. Даже с весами, декодирование всех слоёв для длинных промптов требует много VRAM. Для Gemma 3 70B нужно не меньше 48 ГБ.

Лайфхак: используйте NLA в паре с визуализацией через Python-инструмент. Когда видите на графике необычный кластер — прогоните его через NLA и поймёте, что там.

Кому этот инструмент точно пригодится

  • Исследователям интерпретируемости. Базовый инструмент для формулировки гипотез.
  • ML-инженерам, которые ищут причины галлюцинаций. С NLA можно отлаживать конкретные кейсы.
  • Студентам и энтузиастам AI safety. Это самый простой способ «увидеть», о чём думает модель — без PhD по математике.
  • Фанатам Gemma 3. Если вы уже пробовали режим рассуждения в LM-Studio или кастомные финтюны от DavidAU, NLA даст вам ещё один слой контроля.

Что дальше?

NLA — это не «чтение мыслей» в буквальном смысле, а скорее грубый переводчик с машинного языка на человеческий. Но качество этого перевода растёт. Возможно, через год мы сможем не просто смотреть на активации, а редактировать их на лету — менять намерения модели прямым редактированием «мыслей». Это уже ближе, чем кажется. А пока — качайте веса, пробуйте, ломайте. Если наткнётесь на что-то странное — пишите в комментарии, разберёмся.

Подписаться на канал