Взлом SynthID Google: удаление водяных знаков с точностью 91% | AiManual
AiManual Logo Ai / Manual.
18 Апр 2026 Новости

Взлом SynthID: как исследователь удалил водяные знаки Google с точностью 91% — обзор метода и последствия

Исследователь взломал SynthID от Google, удаляя водяные знаки с AI-изображений с точностью 91%. Обзор метода и последствия для защиты контента.

SynthID взломан: 91% успеха против водяных знаков Google

В тихом мире AI-безопасности грянул гром. Неделю назад независимый исследователь из Цюриха опубликовал доклад, который заставил Google пересмотреть все свои планы. SynthID — та самая технология невидимых водяных знаков для изображений от Imagen и других моделей — оказалась куда менее стойкой, чем обещали.

Если в начале года мы разбирали, как устроен этот «черный ящик» изнутри, то теперь кто-то научился его отключать. Причем с пугающей эффективностью.

Обновление на 18.04.2026: Атака тестировалась против последней версии SynthID 2.3, развернутой в Google AI Studio. Google выпустил патч-заявление, но метод уже в открытом доступе.

Не магия, а математика

Исследователь, скрывающийся под ником «Архимед», не взламывал нейросеть. Он не искал баги в коде. Все оказалось проще (и оттого обиднее для Google).

Водяной знак SynthID — это цифровая подпись, вплетенная в частотный спектр изображения. В теории, ее нельзя удалить, не испортив картинку. На практике выяснилось, что алгоритм детектирования этой подписи оставляет статистические «отпечатки» в самом изображении.

💡
Проще говоря, глядя на множество помеченных изображений, можно вычислить, как именно система решает, что знак есть. А зная правила игры — их можно обмануть.

Метод «Архимеда» — это атака на основе выборки. Ему не нужен доступ к модели. Только к детектору SynthID (который, напомню, Google предоставляет публично для проверки изображений).

Как это работает? Три шага к чистому изображению

1Сбор «отпечатков»

Исследователь сгенерировал тысячи изображений через Imagen в Google AI Studio. Каждое — с водяным знаком SynthID. Затем он пропустил их через официальный детектор, получая не просто бинарный ответ «да/нет», а полный лог вероятностных оценок для разных областей картинки.

2Обратный инжиниринг решающих правил

Анализируя корреляцию между пикселями (вернее, их частотными компонентами) и результатом детектирования, алгоритм вывел обратную функцию. Он понял: «Ага, если в этих 10 конкретных частотных каналах амплитуда ниже порога X — детектор считает, что знака нет».

Здесь нет взлома шифра. Есть наблюдение за охранником. Ты замечаешь, что он зевает каждый раз, когда часы показывают ровное время. И планируешь проход именно в эту секунду.

3Целевая «хирургия» спектра

Получив карту уязвимостей, метод точечно редактирует частотный спектр целевого изображения. Меняются только те параметры, которые сбивают детектор. Для человеческого глаза изменения невидимы — PSNR (пиковое отношение сигнал/шум) остается выше 38 дБ. Но для SynthID изображение становится «чистым».

Результат? 91% успешных удалений водяного знака на тестовой выборке из 5000 изображений. Остальные 9% — случаи, когда правки пришлось бы делать слишком грубыми, и изображение портилось.

МетрикаРезультат атакиЧто это значит
Точность удаления91%Из 100 помеченных картинок 91 станут «невидимыми» для детектора
Средний PSNR41.2 дБКачество изображения почти не падает, искажения минимальны
Время атаки на изображение~3.7 сек (GPU V100)Метод быстрый, его можно автоматизировать для массового использования
Устойчивость к патчу v2.3.186% (предварительно)Google выпустил обновление, но эффективность атаки почти не снизилась

Почему Google попал в эту ловушку?

Обычная история. Инженеры сосредоточились на том, чтобы водяной знак был невидим и устойчив к сжатию, поворотам, шуму. Они тестировали его против «глупых» атак вроде добавления фильтра Instagram. Но не учли, что сам факт существования публичного детектора открывает дверь для обратного инжиниринга.

Это классическая ошибка в криптографии: если ты даешь оппоненту оракул (устройство, которое отвечает «да/нет» на твои запросы), рано или поздно он вычислит твой секретный ключ. SynthID — идеальный оракул.

Ситуация напоминает недавний скандал с клонированием Gemini за $5. Google снова недооценил целенаправленную атаку на свои AI-системы.

Что теперь будет с водяными знаками?

Паника? Не совсем. Но несколько вещей изменится навсегда.

  • Конец эры «секретного» детектирования. Если ты хочешь, чтобы водяной знак был надежным, нельзя позволять кому угодно проверять его миллион раз. Детектор придется прятать за API с лимитами, капчей или платным доступом. Что убьет саму идею открытой проверки контента.
  • Гонка вооружений. Теперь каждый новый водяной знак от Google, OpenAI или Meta будут тестировать на уязвимость к атакам по оракулу с первого дня. Это как AI Red Teaming, только бесплатно и силами всего интернета.
  • Вопрос доверия. Регуляторы, которые рассчитывали на водяные знаки как на панацею против дезинформации, получают холодный душ. Если метку можно незаметно стереть с 9 из 10 изображений, вся система маркировки AI-контента трещит по швам.

Google уже работает над SynthID 3.0. Ходят слухи, что новая версия будет использовать полностью дифференцируемую схему, где водяной знак и детектор обучаются вместе, чтобы противостоять таким атакам. Но релиз — не раньше конца 2026 года.

Прогноз: В следующие полгода мы увидим волну аналогичных взломов для других систем — от Stable Diffusion 3.5 до Midjourney 7. Принцип «атаки по оракулу» универсален. Исследование «Архимеда» — это не конец водяных знаков. Это конец их наивной версии.

Так что, если ты создаешь контент с помощью AI и надеялся на честную маркировку — готовься к реалиям, где любой знак можно стереть. А если ты специалист по безопасности, как в истории с Perplexity, — самое время написать пару скриптов и проверить, что еще ломается.

Водяные знаки не умерли. Они просто стали еще одной точкой в чек-листе для взлома. И это, черт возьми, отличные новости для всех, кто любит, когда технологии проходят проверку на прочность.

Подписаться на канал