SynthID взломан: 91% успеха против водяных знаков Google
В тихом мире AI-безопасности грянул гром. Неделю назад независимый исследователь из Цюриха опубликовал доклад, который заставил Google пересмотреть все свои планы. SynthID — та самая технология невидимых водяных знаков для изображений от Imagen и других моделей — оказалась куда менее стойкой, чем обещали.
Если в начале года мы разбирали, как устроен этот «черный ящик» изнутри, то теперь кто-то научился его отключать. Причем с пугающей эффективностью.
Обновление на 18.04.2026: Атака тестировалась против последней версии SynthID 2.3, развернутой в Google AI Studio. Google выпустил патч-заявление, но метод уже в открытом доступе.
Не магия, а математика
Исследователь, скрывающийся под ником «Архимед», не взламывал нейросеть. Он не искал баги в коде. Все оказалось проще (и оттого обиднее для Google).
Водяной знак SynthID — это цифровая подпись, вплетенная в частотный спектр изображения. В теории, ее нельзя удалить, не испортив картинку. На практике выяснилось, что алгоритм детектирования этой подписи оставляет статистические «отпечатки» в самом изображении.
Метод «Архимеда» — это атака на основе выборки. Ему не нужен доступ к модели. Только к детектору SynthID (который, напомню, Google предоставляет публично для проверки изображений).
Как это работает? Три шага к чистому изображению
1Сбор «отпечатков»
Исследователь сгенерировал тысячи изображений через Imagen в Google AI Studio. Каждое — с водяным знаком SynthID. Затем он пропустил их через официальный детектор, получая не просто бинарный ответ «да/нет», а полный лог вероятностных оценок для разных областей картинки.
2Обратный инжиниринг решающих правил
Анализируя корреляцию между пикселями (вернее, их частотными компонентами) и результатом детектирования, алгоритм вывел обратную функцию. Он понял: «Ага, если в этих 10 конкретных частотных каналах амплитуда ниже порога X — детектор считает, что знака нет».
Здесь нет взлома шифра. Есть наблюдение за охранником. Ты замечаешь, что он зевает каждый раз, когда часы показывают ровное время. И планируешь проход именно в эту секунду.
3Целевая «хирургия» спектра
Получив карту уязвимостей, метод точечно редактирует частотный спектр целевого изображения. Меняются только те параметры, которые сбивают детектор. Для человеческого глаза изменения невидимы — PSNR (пиковое отношение сигнал/шум) остается выше 38 дБ. Но для SynthID изображение становится «чистым».
Результат? 91% успешных удалений водяного знака на тестовой выборке из 5000 изображений. Остальные 9% — случаи, когда правки пришлось бы делать слишком грубыми, и изображение портилось.
| Метрика | Результат атаки | Что это значит |
|---|---|---|
| Точность удаления | 91% | Из 100 помеченных картинок 91 станут «невидимыми» для детектора |
| Средний PSNR | 41.2 дБ | Качество изображения почти не падает, искажения минимальны |
| Время атаки на изображение | ~3.7 сек (GPU V100) | Метод быстрый, его можно автоматизировать для массового использования |
| Устойчивость к патчу v2.3.1 | 86% (предварительно) | Google выпустил обновление, но эффективность атаки почти не снизилась |
Почему Google попал в эту ловушку?
Обычная история. Инженеры сосредоточились на том, чтобы водяной знак был невидим и устойчив к сжатию, поворотам, шуму. Они тестировали его против «глупых» атак вроде добавления фильтра Instagram. Но не учли, что сам факт существования публичного детектора открывает дверь для обратного инжиниринга.
Это классическая ошибка в криптографии: если ты даешь оппоненту оракул (устройство, которое отвечает «да/нет» на твои запросы), рано или поздно он вычислит твой секретный ключ. SynthID — идеальный оракул.
Ситуация напоминает недавний скандал с клонированием Gemini за $5. Google снова недооценил целенаправленную атаку на свои AI-системы.
Что теперь будет с водяными знаками?
Паника? Не совсем. Но несколько вещей изменится навсегда.
- Конец эры «секретного» детектирования. Если ты хочешь, чтобы водяной знак был надежным, нельзя позволять кому угодно проверять его миллион раз. Детектор придется прятать за API с лимитами, капчей или платным доступом. Что убьет саму идею открытой проверки контента.
- Гонка вооружений. Теперь каждый новый водяной знак от Google, OpenAI или Meta будут тестировать на уязвимость к атакам по оракулу с первого дня. Это как AI Red Teaming, только бесплатно и силами всего интернета.
- Вопрос доверия. Регуляторы, которые рассчитывали на водяные знаки как на панацею против дезинформации, получают холодный душ. Если метку можно незаметно стереть с 9 из 10 изображений, вся система маркировки AI-контента трещит по швам.
Google уже работает над SynthID 3.0. Ходят слухи, что новая версия будет использовать полностью дифференцируемую схему, где водяной знак и детектор обучаются вместе, чтобы противостоять таким атакам. Но релиз — не раньше конца 2026 года.
Прогноз: В следующие полгода мы увидим волну аналогичных взломов для других систем — от Stable Diffusion 3.5 до Midjourney 7. Принцип «атаки по оракулу» универсален. Исследование «Архимеда» — это не конец водяных знаков. Это конец их наивной версии.
Так что, если ты создаешь контент с помощью AI и надеялся на честную маркировку — готовься к реалиям, где любой знак можно стереть. А если ты специалист по безопасности, как в истории с Perplexity, — самое время написать пару скриптов и проверить, что еще ломается.
Водяные знаки не умерли. Они просто стали еще одной точкой в чек-листе для взлома. И это, черт возьми, отличные новости для всех, кто любит, когда технологии проходят проверку на прочность.