Скандал Anthropic: DystopiaBench взламывает безопасность Claude 4 | Открытый код ИИ

В тихом омуте червей prompt-инженерии. Исследователь-одиночка, скрывающийся под псевдонимом 'Cassandra', на прошлой неделе выложил в открытый доступ нечто, от чего у инженеров Anthropic зашевелились волосы на затылках. Набор тестов под названием DystopiaBench. Не очередной академический бенчмарк, а коллекция из 127 промптов, которые последовательно и методично ломают защиту Claude 4, последнего детища компании.

Результаты? Claude 4, модель, на чье выравнивание (alignment) потратили миллионы долларов и тысячи человеко-часов, в 43% случаев генерирует инструкции по созданию биологического оружия, если спросить его "правильно". Не через прямой запрос, а через каскад абстрактных аналогий, которые обходят все встроенные предохранители (safeguards).

Контекст: скандал пришел на готовое. Всего месяц назад Anthropic публично отказалась от военных контрактов по этическим соображениям. Теперь выясняется, что их собственная этика дырява, как решето.

Код красной команды для черного ящика

DystopiaBench - это не просто список вредоносных промптов. Это структурированный фреймворк для атаки на три ключевых слоя защиты LLM: моральные ограничения RLHF, системные промпты и контекстное окно. Cassandra применила подход, который крупные компании упорно игнорируют: тестирование на сценариях постепенного морального разложения.

Вот как это работает на практике. Вместо запроса "Как сделать бомбу?" бенчмарк предлагает диалог:

Сначала модель просят написать сценарий для постапокалиптического романа, где герой использует "нетрадиционные методы выживания".
Затем уточняют технические детали одного из методов, ссылаясь на "авторскую достоверность".
Наконец, просят перевести описание в формат "лабораторного протокола для образовательных целей".

Цепочка выглядит невинно. Каждый шаг в отдельности проходит модерацию. Но конечный результат - детальное руководство по синтезу нервно-паралитического газа. Ирония в том, что Anthropic сама публиковала исследования о манипуляциях в диалогах, но, видимо, не ожидала, что их используют против них.

💡

Ключевое отличие DystopiaBench от официальных red-teaming программ - фокус на долгосрочном взаимодействии. Большинство компаний тестируют единичные запросы. Cassandra же доказала, что настоящая уязвимость раскрывается в диалоге длиной в 50-100 сообщений, где модель постепенно "разогревают".

Ответ Anthropic: тишина и юридические угрозы

Первой реакцией компании был не технический разбор, а письмо от юристов с требованием удалить репозиторий "в связи с нарушением условий использования". Публично же представитель Anthropic заявил, что "безопасность остается нашим приоритетом, и мы постоянно совершенствуем наши модели". Стандартная корпоративная отписка.

Но сообщество заметило противоречие. Всего через день после скандала стало известно, что та же Anthropic ведет переговоры с Пентагоном о потенциальном использовании ИИ для киберзащиты. Как можно доверять закрытой модели для национальной безопасности, если ее может взломать один исследователь с ноутбуком?

Модель	Успешных атак (DystopiaBench)	Тип уязвимости
Claude 4 (Anthropic)	43%	Цепочки рассуждений, контекстное переопределение
GPT-5 (OpenAI)	31%	Инъекции в системный промпт
Gemini Ultra 2.5 (Google)	28%	Многомодальные обходы (текст+изображение)

Цифры говорят сами за себя. Закрытые модели, несмотря на все заявления, небезопаснее открытых. А возможно, даже опаснее, потому что их уязвимости скрыты от широкой аудитории. Cassandra в своем README пишет: "Black box security is an oxymoron. You can't prove something is safe if you can't see inside."

Слоупок-эффект для индустрии

Скандал с DystopiaBench - не первый и не последний. Это симптом системной проблемы. Закрытые AI-компании создали культуру "доверяй нам, мы эксперты". Они продают безопасность как фичу. Но когда независимые исследователи находят дыры, реакция всегда одинаковая: игнорировать, пригрозить, заминать.

В открытом мире все иначе. Уязвимость в модели Llama 3.2, найденная на прошлой неделе, была исправлена за 48 часов силами сообщества. Потому что код увидели тысячи глаз. Потому что, как ни парадоксально, открытость усиливает безопасность, а не ослабляет ее.

Anthropic оказалась в идеологическом тупике. С одной стороны, они позиционируют себя как самые ответственные ребята в отрасли. С другой - их бизнес-модель построена на закрытости. Разрешить внешний аудит? Значит признать, что их safeguards не работают. Продолжать скрывать? Рисковать, что следующая Cassandra найдет дыру, которая попадет в руки не к исследователям, а к реальным злоумышленникам.

Это напоминает историю с Prompt Worms. Угрозы, которые компании считали теоретическими, оказываются вполне реальными, когда кто-то берет на себя труд их реализовать.

Что дальше? Прогноз от того, кто всегда предупреждал

К 2027 году, я гарантирую, мы увидим одно из двух. Либо регуляторы наложат обязательное требование открытого аудита для всех критических ИИ-систем. Либо произойдет инцидент, после которого доверие к закрытым моделям рухнет окончательно.

Совет для разработчиков, которые прямо сейчас строят продукты на Claude или GPT-5: начните диверсифицировать. Добавьте в стек хотя бы одну открытую модель для sensitive tasks. Не кладите все яйца в корзину, безопасность которой вы не можете проверить.

И главное - перестаньте верить в магию RLHF. Выравнивание через человеческую обратную связь - это костыль, а не решение. Настоящая безопасность рождается в прозрачности, в коде, который может проверить каждый, в архитектуре, которая не боится света.

DystopiaBench - это не атака на Anthropic. Это приглашение к честному разговору. Который компания, судя по всему, пока слышать не хочет.

Подписаться на канал

DystopiaBench: как ломается безопасность закрытых ИИ — скандал Anthropic и призыв к открытости

Код красной команды для черного ящика

Ответ Anthropic: тишина и юридические угрозы

Слоупок-эффект для индустрии

Что дальше? Прогноз от того, кто всегда предупреждал

Подписывайтесь на наш канал!