Пока вы пишете код, OpenAI его собирает
Вспомните последний раз, когда вы открывали ChatGPT для решения рабочей задачи. Может, просили разобрать кусок кода? Или сгенерировать SQL-запрос? Или написать служебку? Теперь представьте, что все эти файлы - ваши и ваших коллег - отправляются на аутсорс для разметки. А потом в тренировочные данные для следующей модели.
Звучит как паранойя? Это уже реальность. OpenAI через подрядчиков вроде Superstar Scrubbing и Handshake AI собирает реальные рабочие файлы. Документы, презентации, таблицы, код - всё, что люди создают в офисе. Цель - обучить ИИ лучше понимать "беловоротничковую" работу.
В Handshake AI ищут аннотаторов, которые будут просматривать и категоризировать "рабочие документы". В описании вакансии прямо говорится о "различных типах офисных файлов". Никаких анонимных данных из интернета - только реальная работа реальных людей.
Как это работает? Схема проще, чем кажется
OpenAI не может просто взять и скопировать файлы с вашего компьютера (пока). Вместо этого компания использует более изящный метод:
- Вы загружаете файл в ChatGPT или API OpenAI
- Файл попадает в тренировочный pipeline
- Подрядчики получают доступ к этим данным для "очистки" и разметки
- Обработанные данные идут в обучение следующей версии GPT
Superstar Scrubbing - один из таких подрядчиков. Их задача - удалять личную информацию из документов перед тренировкой. Звучит благородно, пока не осознаешь масштаб: они видят всё. Контракты. Финансовые отчеты. Патенты. Медицинские записи.
Интеллектуальная собственность? Какая интеллектуальная собственность?
Вот где начинается настоящий цирк. Юридически OpenAI может утверждать, что использует данные "в соответствии с условиями использования". Те самыми условиями, которые никто не читает. Технически - файлы анонимизируются. Практически - уникальные паттерны кода, стиль документов, структура данных остаются.
Представьте стартап, который загружает в ChatGPT прототип уникального алгоритма. Через год конкурент получает доступ к GPT-5 и просит "написать похожий алгоритм". Модель, обученная на том самом прототипе, легко справляется.
Это не теоретический риск. Уже сейчас Claude Code показывает, как ИИ может за неделю сделать то, что у инженеров занимало месяцы. Теперь добавьте к этому доступ к внутренним разработкам тысяч компаний.
Этические вопросы, которые все игнорируют
OpenAI позиционирует себя как компанию, заботящуюся о безопасности ИИ. Но сбор рабочих файлов через подрядчиков создает сразу несколько этических проблем:
| Проблема | Реальность |
|---|---|
| Информированное согласие | Пользователи не знают, что их файлы увидят подрядчики |
| Конфиденциальность | Даже "очищенные" данные сохраняют контекст |
| Конкуренция | OpenAI получает доступ к инсайдам всей индустрии |
| Безопасность цепочки | Подрядчики - дополнительное звено для утечек |
И самое интересное: OpenAI сама становится уязвимой. Если подрядчик сливает данные - компания теряет доверие. Если данные оказываются недостаточно анонимизированы - суды. Если конкуренты поймут схему - регуляторы.
Это напоминает историю с AI-мошенником DoorDash, где система проверки оказалась уязвимой. Только масштаб здесь в тысячи раз больше.
Что делать разработчикам и компаниям?
Первый инстинкт - запретить сотрудникам использовать ChatGPT. Но это нереально. Второй - полагаться на "корпоративные" версии с обещаниями приватности. Но кто проверяет, что происходит на backend?
Есть более практичные подходы:
- Локальные модели. Как показывают эксперты по инфраструктуре, свои серверы становятся выгоднее облака.
- Данные-приманки. Добавляйте в файлы уникальные маркеры, чтобы отслеживать утечки.
- Шифрование перед отправкой. Если уж используете облачные ИИ - шифруйте всё, что содержит IP.
- Юридический аудит. Проверьте, что ваши контракты с OpenAI действительно защищают данные.
И главное - не верьте маркетингу. AI Alignment - это фикция в том смысле, что компании в первую очередь заботятся о данных для тренировки, а не о вашей приватности.
Будущее: война за данные только начинается
OpenAI с их планом на триллион долларов нужны данные. Много данных. Самые качественные данные. И рабочие файлы - золотая жила.
Но компания не единственная. Google, Anthropic, xAI - все будут использовать похожие схемы. Разница лишь в том, насколько открыто они это делают.
Скандал с Grok и deepfake показал, как быстро регуляторы реагируют на злоупотребления ИИ. Сбор рабочих файлов может стать следующим триггером.
Мой прогноз: через год мы увидим первый крупный суд. Компания обвинит OpenAI в использовании её интеллектуальной собственности для тренировки моделей. И выиграет. После этого все начнут шифровать. Или переходить на открытые модели, которые можно запускать локально.
А пока - проверьте, что ваша команда загружает в ChatGPT. И помните: бесплатный сыр бывает только в мышеловке. Или в тренировочных данных для ИИ.