Теория сказала одно, практика - другое
Все последние годы трансформеры правили бал. Их механизм внимания стал краеугольным камнем для ChatGPT, Gemini и других LLM. Но появился новый претендент - State-Space модели, такие как Mamba. Их хвалят за эффективность на длинных контекстах. Но есть один вопрос, который всех волнует: а что с безопасностью?
Adversarial атаки - это небольшие, злонамеренные изменения во входных данных, которые сбивают модель с толку. Добавишь невидимую запятую - и модель вместо ответа на вопрос начинает сливать системный промпт. Звучит знакомо? Именно об этом мы писали в материале про промпт-инъекции.
Логика подсказывала: у трансформеров сложная архитектура с вниманием, значит, они должны быть более "осознанными" и устойчивыми. State-Space модели, с их линейной сложностью, казались более хрупкими. Новое исследование эту логику разбивает в пух и прах.
Как измеряли хрупкость?
Ученые не стали просто тыкать модели разными атаками. Они взяли две фундаментальные метрики.
- Семантическая масса - грубо говоря, сколько "смысла" несет каждый токен в представлении модели. Если модель устойчива, то смысл должен распределяться равномерно, а не висеть на одном-двух токенах.
- Информация Фишера (Fisher Information) - это статистическая мера того, насколько чувствительны параметры модели к изменениям во входных данных. Высокая чувствительность - модель как на иголках, любое дуновение ветра ее сбивает.
Исследователи сравнили архитектуры похожего масштаба: GPT-2 (классический трансформер) и Mamba (State-Space модель).
Результаты, которые заставят пересмотреть учебники
Оказалось, что State-Space модели демонстрируют более высокую семантическую массу на ранних слоях. Это значит, что информация у них кодируется более "плотно" и распределенно с самого начала.
| Архитектура | Семантическая масса (ранние слои) | Информация Фишера (чувствительность) | Устойчивость к PGD-атаке |
|---|---|---|---|
| GPT-2 (Трансформер) | Низкая | Высокая | Снижение точности на 40-60% |
| Mamba (State-Space) | Высокая | Низкая | Снижение точности на 15-30% |
А информация Фишера у Mamba оказалась ниже. Проще говоря, ее параметры меньше дергаются от шума на входе. Когда применили Projected Gradient Descent (PGD) атаку - один из самых жестких методов - Mamba держалась значительно лучше.
Почему все так удивлены?
Механизм внимания в трансформерах считается их силой. Он позволяет модели "смотреть" на любую часть контекста. Но эта же сила становится ахиллесовой пятой. Внимание создает точечные, сильно зависимые связи. Повреди одну - и вся цепочка рассыпается.
State-Space модели работают иначе. Они используют дифференциальные уравнения для обработки последовательностей. Это как смотреть на поток данных, а не на отдельные кадры. Атаковать поток сложнее.
Это перекликается с идеями из статьи про "травмы" у LLM. Трансформеры, с их гиперфокусом, могут получать "травмы" от специфичных данных. State-Space архитектура, возможно, более устойчива психически.
Что это значит для индустрии?
Во-первых, гонка архитектур только началась. Mamba и аналоги получают серьезный козырь - не только эффективность, но и безопасность.
Во-вторых, методы защиты ИИ придется пересматривать. Если вы боретесь с prompt injection, то ваша защита, настроенная на трансформеры, может не сработать для State-Space моделей.
В-третьих, это вопрос доверия. Когда DeepMind оценивает риски от супер-ИИ, они смотрят в том числе и на устойчивость архитектуры. State-Space модели могут неожиданно оказаться в фаворе.
А что же дальше?
Не спешите списывать трансформеры со счетов. Их экосистема огромна, а приемы защиты развиваются. Но тренд ясен: слепая вера в внимание как панацею заканчивается.
Совет для архитекторов и исследователей: перестаньте смотреть только на точность и скорость на чистых данных. Запускайте adversarial тесты с первого дня. Как показало это исследование, фундаментальные свойства архитектуры определяют ее уязвимости задолго до того, как вы напишете первую строку защиты.
Прогноз? К 2026 году, который многие называют годом потребительского ИИ, мы увидим гибридные архитектуры. Они возьмут эффективность State-Space моделей и адаптивность трансформеров, но с обязательным встроенным иммунитетом. Потому что следующий скандал будет не про галлюцинации, а про взломанного ИИ-ассистента, который отдал все ваши данные по первому же хитрому запросу.