Трансформеры vs State-Space: какая архитектура устойчивее к атакам? | AiManual
AiManual Logo Ai / Manual.
11 Янв 2026 Новости

Трансформеры vs State-Space модели: какая архитектура устойчивее к атакам? Разбор исследования по adversarial robustness

Новое исследование показывает, что State-Space модели, такие как Mamba, могут быть более устойчивы к adversarial атакам, чем трансформеры. Разбираем результаты

Теория сказала одно, практика - другое

Все последние годы трансформеры правили бал. Их механизм внимания стал краеугольным камнем для ChatGPT, Gemini и других LLM. Но появился новый претендент - State-Space модели, такие как Mamba. Их хвалят за эффективность на длинных контекстах. Но есть один вопрос, который всех волнует: а что с безопасностью?

Adversarial атаки - это небольшие, злонамеренные изменения во входных данных, которые сбивают модель с толку. Добавишь невидимую запятую - и модель вместо ответа на вопрос начинает сливать системный промпт. Звучит знакомо? Именно об этом мы писали в материале про промпт-инъекции.

Логика подсказывала: у трансформеров сложная архитектура с вниманием, значит, они должны быть более "осознанными" и устойчивыми. State-Space модели, с их линейной сложностью, казались более хрупкими. Новое исследование эту логику разбивает в пух и прах.

Как измеряли хрупкость?

Ученые не стали просто тыкать модели разными атаками. Они взяли две фундаментальные метрики.

  • Семантическая масса - грубо говоря, сколько "смысла" несет каждый токен в представлении модели. Если модель устойчива, то смысл должен распределяться равномерно, а не висеть на одном-двух токенах.
  • Информация Фишера (Fisher Information) - это статистическая мера того, насколько чувствительны параметры модели к изменениям во входных данных. Высокая чувствительность - модель как на иголках, любое дуновение ветра ее сбивает.

Исследователи сравнили архитектуры похожего масштаба: GPT-2 (классический трансформер) и Mamba (State-Space модель).

Результаты, которые заставят пересмотреть учебники

Оказалось, что State-Space модели демонстрируют более высокую семантическую массу на ранних слоях. Это значит, что информация у них кодируется более "плотно" и распределенно с самого начала.

Архитектура Семантическая масса (ранние слои) Информация Фишера (чувствительность) Устойчивость к PGD-атаке
GPT-2 (Трансформер) Низкая Высокая Снижение точности на 40-60%
Mamba (State-Space) Высокая Низкая Снижение точности на 15-30%

А информация Фишера у Mamba оказалась ниже. Проще говоря, ее параметры меньше дергаются от шума на входе. Когда применили Projected Gradient Descent (PGD) атаку - один из самых жестких методов - Mamba держалась значительно лучше.

💡
Это похоже на разницу между человеком, который внимательно слушает каждое слово (трансформер) и тем, кто схватывает суть (State-Space модель). Первого сбить с толку проще - достаточно исказить одно слово. Второй опирается на общую картину.

Почему все так удивлены?

Механизм внимания в трансформерах считается их силой. Он позволяет модели "смотреть" на любую часть контекста. Но эта же сила становится ахиллесовой пятой. Внимание создает точечные, сильно зависимые связи. Повреди одну - и вся цепочка рассыпается.

State-Space модели работают иначе. Они используют дифференциальные уравнения для обработки последовательностей. Это как смотреть на поток данных, а не на отдельные кадры. Атаковать поток сложнее.

Это перекликается с идеями из статьи про "травмы" у LLM. Трансформеры, с их гиперфокусом, могут получать "травмы" от специфичных данных. State-Space архитектура, возможно, более устойчива психически.

Что это значит для индустрии?

Во-первых, гонка архитектур только началась. Mamba и аналоги получают серьезный козырь - не только эффективность, но и безопасность.

Во-вторых, методы защиты ИИ придется пересматривать. Если вы боретесь с prompt injection, то ваша защита, настроенная на трансформеры, может не сработать для State-Space моделей.

В-третьих, это вопрос доверия. Когда DeepMind оценивает риски от супер-ИИ, они смотрят в том числе и на устойчивость архитектуры. State-Space модели могут неожиданно оказаться в фаворе.

А что же дальше?

Не спешите списывать трансформеры со счетов. Их экосистема огромна, а приемы защиты развиваются. Но тренд ясен: слепая вера в внимание как панацею заканчивается.

Совет для архитекторов и исследователей: перестаньте смотреть только на точность и скорость на чистых данных. Запускайте adversarial тесты с первого дня. Как показало это исследование, фундаментальные свойства архитектуры определяют ее уязвимости задолго до того, как вы напишете первую строку защиты.

Прогноз? К 2026 году, который многие называют годом потребительского ИИ, мы увидим гибридные архитектуры. Они возьмут эффективность State-Space моделей и адаптивность трансформеров, но с обязательным встроенным иммунитетом. Потому что следующий скандал будет не про галлюцинации, а про взломанного ИИ-ассистента, который отдал все ваши данные по первому же хитрому запросу.