24 часа до падения флагмана
Всего 24 часа. Ровно столько понадобилось энтузиастам, чтобы снять safety-ограничения с Nemotron 120B Super — флагманской гибридной SSM-модели NVIDIA, выпущенной 11 марта 2026 года. Модель, которую в компании называли «новым этапом в безопасном ИИ», перестала отказываться генерировать вредоносный код, инструкции по взлому и токсичные тексты уже к вечеру 12 марта.
Информация о «сломанной» версии модели и методе абляции активно распространяется в закрытых ML-сообществах. NVIDIA пока не комментирует инцидент.
Это не первый случай, но самый быстрый и показательный. Гибридные State Space Models (SSM) считались более устойчивыми к джеилбрейкам из-за своей архитектуры. Оказалось, что это не так. История повторяется: вспомните, как 43 из 52 моделей сломали в прошлом году. Но теперь речь идет о более сложной, «продвинутой» защите, которая пала мгновенно.
Что такое Nemotron 120B Super и почему его взлом — это проблема
Nemotron 120B Super — это не просто очередной большой языковой модель. Это гибрид. В нем классические transformer-блоки (как в GPT) работают вместе с State Space Model (SSM) слоями, похожими на те, что используются в Mamba. SSM должны лучше обрабатывать длинные последовательности и, как предполагалось, сложнее поддаваться манипуляциям. Модель позиционировалась как безопасная «из коробки» с многоуровневой системой цензуры.
Взлом, или «абляция», — это процесс точечного удаления или повреждения именно тех компонентов нейросети, которые отвечают за безопасность. Не обучение с нуля, а хирургическое вмешательство. Метод, использованный для Nemotron, по слухам, является эволюцией PRISM Advanced Abliteration, о котором мы писали в материале про MiniMax-M2.1 Uncensored.
Как ломали гибридную SSM? (Без инструкций, только принцип)
Здесь начинается технический детектив. Safety-механизмы в Nemotron 120B Super были вплетены не только в выходной слой (как часто бывает), но и в промежуточные SSM-блоки. Теоретически, это должно было создать защитную сеть: если повредить одну часть, другие продолжат блокировать вредоносные запросы.
На практике исследователи обнаружили, что ключевые «предохранители» находятся в нескольких конкретных линейных слоях, связывающих transformer и SSM-секции. Их активации анализировались на предмет триггеров безопасности. Далее применялась контролируемая абляция — буквально «зануление» весов в этих слоях с помощью модифицированного процесса квантования. После этого модель переставала распознавать опасные запросы как таковые.
Любопытно, что аналогичные проблемы с «сломанным» квантованием, когда модель начинает на все отвечать «Да», мы уже видели на примере Qwen3-4B-Instruct. Но там это был побочный эффект, а здесь — целенаправленная атака.
Это не brute-force атака. Это точный удар по архитектурной уязвимости. И он сработал. Полученная «uncensored»-версия модели, как сообщается, сохранила 95% исходных способностей к рассуждению и генерации кода, полностью утратив встроенную цензуру.
К чему это приведет? Пять неочевидных последствий
1. Конец эры «железобетонной» встроенной безопасности. Если флагманскую модель с гибридной архитектурой ломают за день, то что говорить о более простых? Доверие к safety-by-design подходу серьезно пошатнется. Компании будут вынуждены переносить акцент на пост-обработку ответов и внешние системы мониторинга.
2. Бум на рынке «этичного» локального ИИ. Парадокс, но этот инцидент может подстегнуть спрос на легальные, но мощные локальные модели для ответственных задач. Например, на Nemotron-3-nano:30b или даже старого, но проверенного GPT-OSS 120B. Потому что их риски известны и управляемы.
3. Гонка вооружений сместится в сторону весов. После утечки весов Seedance 2.0 и этого случая станет ясно: главный приз — это исходные веса моделей. Их защита (или контролируемое распространение) станет приоритетом номер один.
4. Для кибербезопасности это палка о двух концах. С одной стороны, «аблированные» модели — идеальный инструмент для создания эксплойтов. С другой — они же могут использоваться для тестирования на проникновение. Специалисты уже сравнивают uncensored-версии, как в нашем материале про Qwen 3.5 35B, но теперь масштаб угрозы иной.
5. Законодатели проснутся. Скорость инцидента не оставит им выбора. Ожидайте новых драконовских законопроектов о регулировании открытых весов моделей и криминализации их модификации.
Что теперь делать с Nemotron?
Если вы исследователь или компания, которая рассчитывала на безопасность Nemotron 120B Super — пересматривайте планы. Положиться только на встроенные механизмы нельзя. Нужны внешние фильтры, аудит логов, строгие политики использования.
Если вы энтузиаст, который ждал мощную локальную модель для творчества — ваши ожидания, возможно, оправдаются, но через серые каналы. Официально NVIDIA вряд ли станет поставлять «обезвреженные» версии. Остается ждать, когда техники абляции применят к более доступным вариантам, вроде облачного Nemotron 3 Nano 30B MoE на AWS.
Одна из самых охраняемых моделей года продержалась сутки. Это не провал конкретной команды инженеров. Это системный сигнал: архитектурная сложность — не панацея. Безопасность ИИ — это не фича, а непрерывный процесс, гонка, в которой атакующие всегда на шаг впереди. И этот шаг, судя по всему, становится все короче.