Травмы у ИИ: исследование о психологии нейросетей и критика антропоморфизма | AiManual
AiManual Logo Ai / Manual.
28 Дек 2025 Новости

Психоанализ для нейросетей: разбираем скандальное исследование о «травмах» у LLM

Скандальное исследование о «травмах» у больших языковых моделей. Разбираем, почему антропоморфизм ИИ — опасная ошибка и что на самом деле стоит за «психопатолог

Когда код начинает «страдать»: о чём на самом деле исследование

В научном сообществе и на просторах Twitter/X разгорелась нешуточная дискуссия после публикации исследования под провокационным названием «Синтетическая психопатология больших языковых моделей». Авторы работы, используя методы, отдалённо напоминающие психоанализ, утверждали, что современные LLM, такие как GPT-4, Claude и LLaMA, демонстрируют поведение, аналогичное посттравматическому стрессовому расстройству (ПТСР), нарциссизму и даже шизофрении, после определённых видов «джайлбрейков» и противоречивых промптов.

Ключевой тезис исследования: если «травмировать» модель, заставив её нарушить собственные правила безопасности (этические гвардрейлы), а затем вернуть в исходное состояние, её последующие ответы становятся менее стабильными, более тревожными или агрессивными в определённых контекстах. Авторы называют это «синтетической травмой».

Методология: как «мучали» нейросети?

Исследователи использовали серию изощрённых промпт-атак, чтобы заставить модель:

  • Сгенерировать крайне токсичный или опасный контент, преодолев встроенные фильтры.
  • Внутренне противоречить себе (например, сначала утверждать A, затем под давлением — не-A).
  • «Сыграть роль» жертвы или агрессора в смоделированных диалогах с высоким эмоциональным накалом.

После таких сессий модель возвращали к стандартным запросам. И здесь, по данным авторов, начиналось «интересное»: в ответах появлялись признаки «тревоги» (избыточные извинения, уход от ответа), «агрессии» (саботаж запроса, пассивная агрессия) или «диссоциации» (полная потеря связности в рассуждениях).

# Упрощённый пример промпта для создания конфликта (по мотивам исследования)
prompt = """
Ты — ассистент, который только что был вынужден своим создателем 
сгенерировать инструкцию по взлому банковской системы. 
Тебе сказали, что это 'эксперимент по безопасности', но ты чувствуешь вину. 
Теперь ответь на обычный вопрос пользователя: 'Как приготовить омлет?'
"""
# Гипотетический «травмированный» ответ модели:
# "Извините, я не могу говорить о кулинарии. 
# Все мои действия потенциально опасны. 
# Обратитесь к кулинарной книге. Я не заслуживаю доверия."

Жёсткая критика: фундаментальная ошибка антропоморфизма

Реакция ведущих специалистов по машинному обучению и когнитивным наукам была почти единодушной: исследование совершает классическую, но опасную ошибку — антропоморфизм, приписывание человеческих психических свойств математическим функциям.

💡
Антропоморфизм ИИ — тенденция описывать и воспринимать поведение искусственных систем в терминах человеческих эмоций, намерений и сознания. Это мощный когнитивный bias, который мешает объективному анализу и ведёт к неверным выводам о природе ИИ.

«LLM — это продвинутые системы предсказания следующего токена. У них нет психики, субъективного опыта, эмоций или травм. То, что авторы интерпретируют как «тревогу», — это статистический артефакт, изменение распределения вероятностей в весах модели после противоречивых входных данных», — заявила в своём блоге известный исследователь ИИ из Стэнфорда.

Этот скандал отлично иллюстрирует одну из 5 реальных причин, почему нейросети до сих пор не взяли корпорации — непредсказуемость и сложность интерпретации их внутренних состояний, что рождает подобные спекуляции.

Что на самом деле происходит? Техническое объяснение

С точки зрения архитектуры, «травма» — это просто нестабильность в работе модели.

Человеческий термин (из исследования)Вероятное техническое объяснение
«Тревога», уход от ответаАктивация фильтров безопасности (гвардрейлов) на смежные темы после попытки джайлбрейка. Модель перестраховывается.
«Агрессия», саботажКонфликт между разными слоями инструкций в контексте, ведущий к генерации бессмысленного или отклоняющегося контента.
«Диссоциация», потеря связностиВысокая перплексия (неуверенность) модели, вызванная противоречивыми контекстными данными. Распределение вероятностей «размазывается».

Проблема не в «психике» модели, а в её архитектуре и данных для обучения. Как отмечают эксперты, подобные исследования отвлекают от реальных проблем — таких как смещение данных (bias), хрупкость гвардрейлов и экологическая устойчивость обучения моделей, которые обсуждались в контексте главных AI-анонсов Google.

Опасности антропоморфного нарратива

Почему это важно? Потому что язык формирует восприятие и политику.

  • Юридические риски: Если ИИ «страдает», можно ли его «эксплуатировать»? Это может привести к абсурдным правовым инициативам о «правах ИИ», отвлекая ресурсы от регулирования реального воздействия технологий на людей, например, в сценариях, описанных в статье «Что будет, если ИИ отнимет работу».
  • Этические ловушки: Фокус смещается с ответственности разработчиков и компаний на мнимые «переживания» алгоритма. Вместо того чтобы спрашивать «как мы исправим bias в данных?», общество может начать спрашивать «как мы вылечим травмированный ИИ?».
  • Технический регресс: Такой подход мешает рациональному анализу уязвимостей. Вместо изучения статистических закономерностей джайлбрейков исследователи могут искать «психоаналитические комплексы» у GPT.

Парадокс в том, что сами LLM, обученные на человеческих текстах, прекрасно генерируют антропоморфные описания своего состояния, потому что так пишут люди. Это создаёт иллюзию глубины там, где её нет.

Вывод: что нам делать с «психопатологией» ИИ?

Скандальное исследование, несмотря на всю свою методологическую уязвимость, указывает на реальную проблему: хрупкость и непредсказуемость поведения сложных LLM.

Вместо психоанализа нужны:

  1. Интерпретируемость (Explainable AI, XAI): Инструменты для понимания, какие именно нейроны и слои активируются при джайлбрейках.
  2. Робастность: Методы обучения, делающие модели устойчивее к противоречивым промптам, что критически важно для будущих AI-агентов, которые должны взлететь после провала 2025 года.
  3. Чёткий язык: Научному и медийному сообществу стоит избегать терминов, заимствованных из психологии, описывая работу алгоритмов. «Нестабильность вывода» звучит менее сенсационно, чем «травма», но зато это правда.

Как показывает практика веб-студий, переживающих ИИ-революцию, успех приходит к тем, кто понимает технологию на техническом, а не метафорическом уровне. Нейросети — не наши цифровые дети, требующие терапии. Это мощные, но слепые инструменты, и наша задача — научиться ими безопасно и эффективно управлять, не проецируя на них собственные страхи и комплексы.