OpenAI собирает данные через подрядчиков: риски утечки и этика

Пока вы пишете код, OpenAI его собирает

Вспомните последний раз, когда вы открывали ChatGPT для решения рабочей задачи. Может, просили разобрать кусок кода? Или сгенерировать SQL-запрос? Или написать служебку? Теперь представьте, что все эти файлы - ваши и ваших коллег - отправляются на аутсорс для разметки. А потом в тренировочные данные для следующей модели.

Звучит как паранойя? Это уже реальность. OpenAI через подрядчиков вроде Superstar Scrubbing и Handshake AI собирает реальные рабочие файлы. Документы, презентации, таблицы, код - всё, что люди создают в офисе. Цель - обучить ИИ лучше понимать "беловоротничковую" работу.

В Handshake AI ищут аннотаторов, которые будут просматривать и категоризировать "рабочие документы". В описании вакансии прямо говорится о "различных типах офисных файлов". Никаких анонимных данных из интернета - только реальная работа реальных людей.

Как это работает? Схема проще, чем кажется

OpenAI не может просто взять и скопировать файлы с вашего компьютера (пока). Вместо этого компания использует более изящный метод:

Вы загружаете файл в ChatGPT или API OpenAI
Файл попадает в тренировочный pipeline
Подрядчики получают доступ к этим данным для "очистки" и разметки
Обработанные данные идут в обучение следующей версии GPT

Superstar Scrubbing - один из таких подрядчиков. Их задача - удалять личную информацию из документов перед тренировкой. Звучит благородно, пока не осознаешь масштаб: они видят всё. Контракты. Финансовые отчеты. Патенты. Медицинские записи.

💡

Это не просто абстрактные "данные из интернета". Это конкретные рабочие процессы конкретных компаний. Если вы используете ChatGPT для работы, ваши файлы могут стать частью тренировочного набора. Без вашего явного согласия.

Интеллектуальная собственность? Какая интеллектуальная собственность?

Вот где начинается настоящий цирк. Юридически OpenAI может утверждать, что использует данные "в соответствии с условиями использования". Те самыми условиями, которые никто не читает. Технически - файлы анонимизируются. Практически - уникальные паттерны кода, стиль документов, структура данных остаются.

Представьте стартап, который загружает в ChatGPT прототип уникального алгоритма. Через год конкурент получает доступ к GPT-5 и просит "написать похожий алгоритм". Модель, обученная на том самом прототипе, легко справляется.

Это не теоретический риск. Уже сейчас Claude Code показывает, как ИИ может за неделю сделать то, что у инженеров занимало месяцы. Теперь добавьте к этому доступ к внутренним разработкам тысяч компаний.

Этические вопросы, которые все игнорируют

OpenAI позиционирует себя как компанию, заботящуюся о безопасности ИИ. Но сбор рабочих файлов через подрядчиков создает сразу несколько этических проблем:

Проблема	Реальность
Информированное согласие	Пользователи не знают, что их файлы увидят подрядчики
Конфиденциальность	Даже "очищенные" данные сохраняют контекст
Конкуренция	OpenAI получает доступ к инсайдам всей индустрии
Безопасность цепочки	Подрядчики - дополнительное звено для утечек

И самое интересное: OpenAI сама становится уязвимой. Если подрядчик сливает данные - компания теряет доверие. Если данные оказываются недостаточно анонимизированы - суды. Если конкуренты поймут схему - регуляторы.

Это напоминает историю с AI-мошенником DoorDash, где система проверки оказалась уязвимой. Только масштаб здесь в тысячи раз больше.

Что делать разработчикам и компаниям?

Первый инстинкт - запретить сотрудникам использовать ChatGPT. Но это нереально. Второй - полагаться на "корпоративные" версии с обещаниями приватности. Но кто проверяет, что происходит на backend?

Есть более практичные подходы:

Локальные модели. Как показывают эксперты по инфраструктуре, свои серверы становятся выгоднее облака.
Данные-приманки. Добавляйте в файлы уникальные маркеры, чтобы отслеживать утечки.
Шифрование перед отправкой. Если уж используете облачные ИИ - шифруйте всё, что содержит IP.
Юридический аудит. Проверьте, что ваши контракты с OpenAI действительно защищают данные.

И главное - не верьте маркетингу. AI Alignment - это фикция в том смысле, что компании в первую очередь заботятся о данных для тренировки, а не о вашей приватности.

Будущее: война за данные только начинается

OpenAI с их планом на триллион долларов нужны данные. Много данных. Самые качественные данные. И рабочие файлы - золотая жила.

Но компания не единственная. Google, Anthropic, xAI - все будут использовать похожие схемы. Разница лишь в том, насколько открыто они это делают.

Скандал с Grok и deepfake показал, как быстро регуляторы реагируют на злоупотребления ИИ. Сбор рабочих файлов может стать следующим триггером.

Мой прогноз: через год мы увидим первый крупный суд. Компания обвинит OpenAI в использовании её интеллектуальной собственности для тренировки моделей. И выиграет. После этого все начнут шифровать. Или переходить на открытые модели, которые можно запускать локально.

А пока - проверьте, что ваша команда загружает в ChatGPT. И помните: бесплатный сыр бывает только в мышеловке. Или в тренировочных данных для ИИ.

OpenAI платит подрядчикам за ваши рабочие файлы. И это не шутка