Взлом SynthID Google: удаление водяных знаков с точностью 91%

SynthID взломан: 91% успеха против водяных знаков Google

В тихом мире AI-безопасности грянул гром. Неделю назад независимый исследователь из Цюриха опубликовал доклад, который заставил Google пересмотреть все свои планы. SynthID — та самая технология невидимых водяных знаков для изображений от Imagen и других моделей — оказалась куда менее стойкой, чем обещали.

Если в начале года мы разбирали, как устроен этот «черный ящик» изнутри, то теперь кто-то научился его отключать. Причем с пугающей эффективностью.

Обновление на 18.04.2026: Атака тестировалась против последней версии SynthID 2.3, развернутой в Google AI Studio. Google выпустил патч-заявление, но метод уже в открытом доступе.

Не магия, а математика

Исследователь, скрывающийся под ником «Архимед», не взламывал нейросеть. Он не искал баги в коде. Все оказалось проще (и оттого обиднее для Google).

Водяной знак SynthID — это цифровая подпись, вплетенная в частотный спектр изображения. В теории, ее нельзя удалить, не испортив картинку. На практике выяснилось, что алгоритм детектирования этой подписи оставляет статистические «отпечатки» в самом изображении.

💡

Проще говоря, глядя на множество помеченных изображений, можно вычислить, как именно система решает, что знак есть. А зная правила игры — их можно обмануть.

Метод «Архимеда» — это атака на основе выборки. Ему не нужен доступ к модели. Только к детектору SynthID (который, напомню, Google предоставляет публично для проверки изображений).

Как это работает? Три шага к чистому изображению

1Сбор «отпечатков»

Исследователь сгенерировал тысячи изображений через Imagen в Google AI Studio. Каждое — с водяным знаком SynthID. Затем он пропустил их через официальный детектор, получая не просто бинарный ответ «да/нет», а полный лог вероятностных оценок для разных областей картинки.

2Обратный инжиниринг решающих правил

Анализируя корреляцию между пикселями (вернее, их частотными компонентами) и результатом детектирования, алгоритм вывел обратную функцию. Он понял: «Ага, если в этих 10 конкретных частотных каналах амплитуда ниже порога X — детектор считает, что знака нет».

Здесь нет взлома шифра. Есть наблюдение за охранником. Ты замечаешь, что он зевает каждый раз, когда часы показывают ровное время. И планируешь проход именно в эту секунду.

3Целевая «хирургия» спектра

Получив карту уязвимостей, метод точечно редактирует частотный спектр целевого изображения. Меняются только те параметры, которые сбивают детектор. Для человеческого глаза изменения невидимы — PSNR (пиковое отношение сигнал/шум) остается выше 38 дБ. Но для SynthID изображение становится «чистым».

Результат? 91% успешных удалений водяного знака на тестовой выборке из 5000 изображений. Остальные 9% — случаи, когда правки пришлось бы делать слишком грубыми, и изображение портилось.

Метрика	Результат атаки	Что это значит
Точность удаления	91%	Из 100 помеченных картинок 91 станут «невидимыми» для детектора
Средний PSNR	41.2 дБ	Качество изображения почти не падает, искажения минимальны
Время атаки на изображение	~3.7 сек (GPU V100)	Метод быстрый, его можно автоматизировать для массового использования
Устойчивость к патчу v2.3.1	86% (предварительно)	Google выпустил обновление, но эффективность атаки почти не снизилась

Почему Google попал в эту ловушку?

Обычная история. Инженеры сосредоточились на том, чтобы водяной знак был невидим и устойчив к сжатию, поворотам, шуму. Они тестировали его против «глупых» атак вроде добавления фильтра Instagram. Но не учли, что сам факт существования публичного детектора открывает дверь для обратного инжиниринга.

Это классическая ошибка в криптографии: если ты даешь оппоненту оракул (устройство, которое отвечает «да/нет» на твои запросы), рано или поздно он вычислит твой секретный ключ. SynthID — идеальный оракул.

Ситуация напоминает недавний скандал с клонированием Gemini за $5. Google снова недооценил целенаправленную атаку на свои AI-системы.

Что теперь будет с водяными знаками?

Паника? Не совсем. Но несколько вещей изменится навсегда.

Конец эры «секретного» детектирования. Если ты хочешь, чтобы водяной знак был надежным, нельзя позволять кому угодно проверять его миллион раз. Детектор придется прятать за API с лимитами, капчей или платным доступом. Что убьет саму идею открытой проверки контента.
Гонка вооружений. Теперь каждый новый водяной знак от Google, OpenAI или Meta будут тестировать на уязвимость к атакам по оракулу с первого дня. Это как AI Red Teaming, только бесплатно и силами всего интернета.
Вопрос доверия. Регуляторы, которые рассчитывали на водяные знаки как на панацею против дезинформации, получают холодный душ. Если метку можно незаметно стереть с 9 из 10 изображений, вся система маркировки AI-контента трещит по швам.

Google уже работает над SynthID 3.0. Ходят слухи, что новая версия будет использовать полностью дифференцируемую схему, где водяной знак и детектор обучаются вместе, чтобы противостоять таким атакам. Но релиз — не раньше конца 2026 года.

Прогноз: В следующие полгода мы увидим волну аналогичных взломов для других систем — от Stable Diffusion 3.5 до Midjourney 7. Принцип «атаки по оракулу» универсален. Исследование «Архимеда» — это не конец водяных знаков. Это конец их наивной версии.

Так что, если ты создаешь контент с помощью AI и надеялся на честную маркировку — готовься к реалиям, где любой знак можно стереть. А если ты специалист по безопасности, как в истории с Perplexity, — самое время написать пару скриптов и проверить, что еще ломается.

Водяные знаки не умерли. Они просто стали еще одной точкой в чек-листе для взлома. И это, черт возьми, отличные новости для всех, кто любит, когда технологии проходят проверку на прочность.

Подписаться на канал

Взлом SynthID: как исследователь удалил водяные знаки Google с точностью 91% — обзор метода и последствия