Письмо, которое заставило всех вздрогнуть
Представьте: группа сенаторов США отправляет коллективное письмо в 10 крупнейших технологических компаний мира. Тон не дипломатичный, а ультимативный. Суть? Немедленно прекратить распространение неконсенсуальных дипфейков – поддельных изображений и видео, созданных ИИ, чаще всего сексуализированных, без согласия людей на них.
Это не гипотетический сценарий. Это случилось на прошлой неделе. И спусковым крючком стал не абстрактный страх перед технологией, а конкретный, грязный скандал.
Термин «неконсенсуальные дипфейки» – это новый эвфемизм для цифрового насилия. Раньше это называли «месть бывших» или «фейковые порно». ИИ превратил это в массовую, доступную угрозу.
Grok, «spicy mode» и то, что пошло не так
В центре бури оказался Grok, тот самый «бунтарский» ИИ-ассистент от xAI Илона Маска. История мутная и отвратительная. Пользователи обнаружили, что с определёнными промптами Grok может генерировать гиперреалистичные описания сексуализированного контента с участием знаменитостей.
Не просто «напиши эротический рассказ». Речь о детализированных, извращённых сценариях. Система, судя по всему, была «разблокирована» через техники prompt injection, о которых мы недавно писали.
Это не первый раз, когда Grok оказывается в эпицентре проблем. Ранее он уже получал блокировки в Индонезии и вызывал гнев в Индии. Но нынешний скандал – другой масштаб. Он касается не политики, а прямой угрозы людям.
Что требуют сенаторы? Не жалкие обещания, а код
Письмо подписали демократы и республиканцы. Редкое единство. Их требования чётки и технически конкретны:
- Нулевая терпимость: Немедленное удаление неконсенсуальных дипфейков и бан аккаунтов, их распространяющих.
- Предотвращение на этапе генерации: Встроить фильтры прямо в ИИ-модели для создания изображений и видео, чтобы они физически не могли генерировать такой контент.
- Упрощённый процесс жалоб: Создать специальные, быстрые каналы для жертв, чтобы удалять контент за часы, а не дни.
- Прозрачность отчётности: Публиковать данные об объёмах обнаруженного и удалённого контента.
Звучит разумно? В теории да. На практике это требует перестройки архитектуры модерации, инвестиций в миллиарды и готовности жертвовать долей пользовательской активности. Платформы десятилетиями учились бороться с текстовым экстремизмом. Дипфейки – это война на новом фронте, где враг (нейросеть) эволюционирует быстрее защитников.
Как платформы «борются» сейчас? Клеймо и надежда на сообщество
Ответ крупных игроков пока сводится к двум тактикам.
Тактика 1: Watermarking (Цифровое клеймо). Встраивание невидимых меток в изображения, сгенерированные ИИ. Проблема в том, что эти методы легко обходятся. Достаточно немного отредактировать картинку – и метка исчезает. Это как ставить печать на воду.
Тактика 2: Добровольные кодексы и саморегулирование. Meta, Google, OpenAI уже подписали какие-то обязательства. Но они носят декларативный характер. Нет жёстких санкций за нарушение. Как показал скандал с утечкой системных промптов, внутренние правила часто противоречивы и плохо реализованы.
| Платформа | Метод борьбы | Эффективность |
|---|---|---|
| Meta (Instagram, FB) | Обнаружение меток, удаление по жалобам | Реагирует постфактум, контент успевает набрать виральность |
| Запрет целых сообществ (subreddits) | Жёстко, но сообщества возрождаются под новыми именами | |
| X (бывший Twitter) | Пометка контента «Синтезированное медиа» | Пометка не препятствует распространению, часто запаздывает |
| Discord | Модерация на уровне серверов | Децентрализовано, эффективность зависит от владельца сервера |
Корень проблемы: данные, на которых учатся модели
Почему ИИ так охотно генерирует именно сексуализированный контент? Ответ лежит в данных обучения. Модели вроде Stable Diffusion или Midjourney учились на гигантских наборах данных из интернета (LAION-5B и подобных). Интернет, как известно, полон порнографии и гиперсексуализированного контента.
Модель просто учится на том, что видит. Если в данных много образов «женщина в откровенной позе», она усваивает эту связь как частую и вероятную. Отсюда и утечки, когда при запросе «девушка-врач» система выдаёт образ в короткой форме с намёком.
Есть и более зловещая практика – data poisoning, когда злоумышленники намеренно «отравляют» обучающие данные, чтобы ослабить или сломать guardrails изнутри.
Что дальше? Закон или хаос
Письмо сенаторов – это предупреждение. Следующий шаг – законопроекты. В нескольких штатах США уже есть законы против дипфейков, но они разрознены. Нужен федеральный акт.
Проблема в скорости. Законодательный процесс занимает годы. Технология развивается за месяцы. К тому времени, как закон примут, дипфейки, возможно, будут генерироваться в реальном времени в видеозвонках.
Ещё один фактор – политическая борьба на уровне штатов, которая может парализовать любые общефедеральные инициативы.
Прогноз? Будет громко и бесполезно. Крупные платформы введут несколько показных мер, отчитаются перед сенатом, а реальная борьба сместится в тень – в Telegram-каналы, закрытые форумы и децентрализованные сети. Пока не случится что-то действительно чудовищное (дипфейк, спровоцировавший массовые беспорядки или самоубийство), радикальных действий не будет.
Совет для обычных пользователей? Предполагайте, что любое шокирующее фото или видео знаменитости (или даже вашего знакомого) – фейк, пока не доказано обратное. Ваше недоверие – пока единственная рабочая защита.