Какие архитектуры сравнивались в исследовании?

Исследователи сравнивали архитектуру трансформера (на примере GPT-2) и State-Space модели (на примере Mamba) схожего масштаба.

Что такое семантическая масса?

Семантическая масса - это мера того, сколько смысла или информации несет каждый токен во внутреннем представлении модели. Более высокая и равномерная семантическая масса связана с большей устойчивостью к атакам.

Какая архитектура оказалась устойчивее к adversarial атакам?

Согласно исследованию, State-Space модель Mamba продемонстрировала значительно более высокую устойчивость к атакам, таким как PGD, по сравнению с трансформером GPT-2.

Трансформеры vs State-Space: какая архитектура устойчивее к атакам?

Теория сказала одно, практика - другое

Все последние годы трансформеры правили бал. Их механизм внимания стал краеугольным камнем для ChatGPT, Gemini и других LLM. Но появился новый претендент - State-Space модели, такие как Mamba. Их хвалят за эффективность на длинных контекстах. Но есть один вопрос, который всех волнует: а что с безопасностью?

Adversarial атаки - это небольшие, злонамеренные изменения во входных данных, которые сбивают модель с толку. Добавишь невидимую запятую - и модель вместо ответа на вопрос начинает сливать системный промпт. Звучит знакомо? Именно об этом мы писали в материале про промпт-инъекции.

Логика подсказывала: у трансформеров сложная архитектура с вниманием, значит, они должны быть более "осознанными" и устойчивыми. State-Space модели, с их линейной сложностью, казались более хрупкими. Новое исследование эту логику разбивает в пух и прах.

Как измеряли хрупкость?

Ученые не стали просто тыкать модели разными атаками. Они взяли две фундаментальные метрики.

Семантическая масса - грубо говоря, сколько "смысла" несет каждый токен в представлении модели. Если модель устойчива, то смысл должен распределяться равномерно, а не висеть на одном-двух токенах.
Информация Фишера (Fisher Information) - это статистическая мера того, насколько чувствительны параметры модели к изменениям во входных данных. Высокая чувствительность - модель как на иголках, любое дуновение ветра ее сбивает.

Исследователи сравнили архитектуры похожего масштаба: GPT-2 (классический трансформер) и Mamba (State-Space модель).

Результаты, которые заставят пересмотреть учебники

Оказалось, что State-Space модели демонстрируют более высокую семантическую массу на ранних слоях. Это значит, что информация у них кодируется более "плотно" и распределенно с самого начала.

Архитектура	Семантическая масса (ранние слои)	Информация Фишера (чувствительность)	Устойчивость к PGD-атаке
GPT-2 (Трансформер)	Низкая	Высокая	Снижение точности на 40-60%
Mamba (State-Space)	Высокая	Низкая	Снижение точности на 15-30%

А информация Фишера у Mamba оказалась ниже. Проще говоря, ее параметры меньше дергаются от шума на входе. Когда применили Projected Gradient Descent (PGD) атаку - один из самых жестких методов - Mamba держалась значительно лучше.

💡

Это похоже на разницу между человеком, который внимательно слушает каждое слово (трансформер) и тем, кто схватывает суть (State-Space модель). Первого сбить с толку проще - достаточно исказить одно слово. Второй опирается на общую картину.

Почему все так удивлены?

Механизм внимания в трансформерах считается их силой. Он позволяет модели "смотреть" на любую часть контекста. Но эта же сила становится ахиллесовой пятой. Внимание создает точечные, сильно зависимые связи. Повреди одну - и вся цепочка рассыпается.

State-Space модели работают иначе. Они используют дифференциальные уравнения для обработки последовательностей. Это как смотреть на поток данных, а не на отдельные кадры. Атаковать поток сложнее.

Это перекликается с идеями из статьи про "травмы" у LLM. Трансформеры, с их гиперфокусом, могут получать "травмы" от специфичных данных. State-Space архитектура, возможно, более устойчива психически.

Что это значит для индустрии?

Во-первых, гонка архитектур только началась. Mamba и аналоги получают серьезный козырь - не только эффективность, но и безопасность.

Во-вторых, методы защиты ИИ придется пересматривать. Если вы боретесь с prompt injection, то ваша защита, настроенная на трансформеры, может не сработать для State-Space моделей.

В-третьих, это вопрос доверия. Когда DeepMind оценивает риски от супер-ИИ, они смотрят в том числе и на устойчивость архитектуры. State-Space модели могут неожиданно оказаться в фаворе.

А что же дальше?

Не спешите списывать трансформеры со счетов. Их экосистема огромна, а приемы защиты развиваются. Но тренд ясен: слепая вера в внимание как панацею заканчивается.

Совет для архитекторов и исследователей: перестаньте смотреть только на точность и скорость на чистых данных. Запускайте adversarial тесты с первого дня. Как показало это исследование, фундаментальные свойства архитектуры определяют ее уязвимости задолго до того, как вы напишете первую строку защиты.

Прогноз? К 2026 году, который многие называют годом потребительского ИИ, мы увидим гибридные архитектуры. Они возьмут эффективность State-Space моделей и адаптивность трансформеров, но с обязательным встроенным иммунитетом. Потому что следующий скандал будет не про галлюцинации, а про взломанного ИИ-ассистента, который отдал все ваши данные по первому же хитрому запросу.

Трансформеры vs State-Space модели: какая архитектура устойчивее к атакам? Разбор исследования по adversarial robustness