Data poisoning в ML: как инсайдеры ломают ИИ изнутри

Когда данные становятся оружием

Все говорят про хакеров, которые атакуют ИИ извне. Но настоящая угроза часто сидит в соседнем офисе. Или в удаленном чате подрядчиков. Data poisoning — это когда кто-то с доступом к тренировочным данным специально их портит. Не взламывает, не обходит защиту. Просто добавляет немного цифрового яда в общий котел.

Зачем? Причины разные. Обиженный сотрудник хочет отомстить компании. Конкурент платит за саботаж. Или просто кто-то решил, что ИИ слишком умный становится и его нужно немного "подправить".

Классическая атака типа data poisoning выглядит изящно. Представьте: модель для распознавания кошек учат на миллионах картинок. Инсайдер добавляет всего 0.1% изображений, где кошки помечены как "собаки". Модель начинает путаться. Ошибки накапливаются. И через месяц система стабильно называет мейн-куна таксой.

Как работает отравление данных на практике

Не нужно быть гением. Достаточно иметь доступ к данным и немного понимать, как работает машинное обучение. Самые опасные атаки — те, что остаются незамеченными месяцами.

💡

Инсайдер может работать в компании годами. У него есть доверие, доступ к системам, понимание процессов. Он знает, какие данные куда идут. И когда лучше добавить "ядовитые" примеры — обычно на этапе сбора или разметки данных.

1 Выбор цели

Сначала нужно понять, что ломать. Модель для кредитного скоринга? Добавить данные, которые связывают определенные почтовые индексы с "надежными" заемщиками, хотя на самом деле там высокие риски. Модель для модерации контента? Научить ее пропускать определенные фразы или блокировать невинный контент.

2 Минимальная доза

Хороший poisoner не бросается в крайности. Он добавляет ровно столько испорченных данных, чтобы модель сломалась, но не настолько, чтобы триггеры сработали сразу. Обычно это меньше 1% от общего датасета. Достаточно, чтобы модель начала ошибаться в критически важных случаях.

3 Маскировка

Отравленные данные должны выглядеть как нормальные. Нельзя просто пометить все изображения собак как "кошек". Нужно создать правдоподобные, но неправильные ассоциации. Например, добавить тысячи фотографий определенной породы собак с тегом "опасная", хотя статистика говорит обратное.

Почему это сложно обнаружить

Потому что данные в ML — это черный ящик. Особенно в больших компаниях, где один отдел собирает данные, другой размечает, третий тренирует модели. Инсайдер может работать в любой точке этой цепочки.

Тип инсайдера	Доступ	Мотив
Разметчик данных	Прямой доступ к лейблам	Недовольство зарплатой, идеологические причины
Инженер данных	Конвейеры обработки	Конкуренция, предложения от других компаний
ML-инженер	Весь пайплайн обучения	Саботаж перед увольнением, личные конфликты
Внешний подрядчик	Часть данных или процессов	Финансовая выгода, шантаж

И вот что самое страшное: отравленная модель может работать нормально 99% времени. Проблемы появляются только в специфических случаях. Которые, конечно же, критически важны для бизнеса.

Реальные примеры (которые не афишируют)

Крупные компании молчат о таких инцидентах. Но если покопаться в истории утечек и скандалов, картина становится яснее.

Финансовая компания в 2022 году обнаружила, что ее модель для оценки рисков систематически занижает баллы для клиентов из определенных районов. Причина? Бывший сотрудник, которого уволили без выходного пособия, добавил "ядовитые" данные за месяц до ухода.
Стартап в сфере рекрутинга потратил полгода, пытаясь понять, почему их ИИ отсеивает кандидатов из топ-вузов. Оказалось, один из разметчиков данных считал, что элитное образование делает людей надменными. И соответствующим образом пометил тысячи резюме.
Компания, разрабатывающая ИИ для медицинской диагностики, получила анонимное письмо с требованием выкупа. Отправитель утверждал, что отравил 0.3% тренировочных данных изображений раковых клеток. И теперь модель в 15% случаев будет давать ложные отрицательные результаты для определенного типа опухолей.

Проблема в том, что проверить каждый датасет вручную невозможно. Особенно когда речь идет о миллионах или миллиардах примеров. OpenAI платит подрядчикам за разметку данных, но как гарантировать, что кто-то из них не решит "скорректировать" мировоззрение ИИ под свои взгляды?

Это не только про классификацию картинок

Data poisoning работает везде, где есть данные для обучения. Текстовые модели? Легко. Добавьте в корпус текстов слегка искаженные определения политических терминов. Модели для генерации кода? Внедрите "безопасные" уязвимости в примеры. Рекомендательные системы? Научите их продвигать определенные продукты в ущерб другим.

И самое интересное: отравление данных может быть кумулятивным. Один инсайдер добавляет немного яда. Другой — еще немного. Третий — делает свою порцию. И через год модель становится совершенно непредсказуемой, хотя формально все метрики в норме.

Что делают компании для защиты

Практически ничего. Серьезно. Большинство компаний сосредоточены на защите от внешних атак типа adversarial attacks или prompt injection. Инсайдерские угрозы остаются слепым пятном.

Разделение обязанностей. Один человек собирает данные, другой размечает, третий проверяет. Но в реальности все эти роли часто совмещаются из-за нехватки ресурсов.
Аудиты данных. Случайные проверки выборок. Проблема в том, что отравленные данные могут составлять всего 0.01% от общего объема. Шанс поймать их случайной выборкой стремится к нулю.
Мониторинг аномалий в поведении модели. Если модель внезапно начинает странно себя вести на определенных типах данных — тревога. Но к этому моменту яд уже в системе.

Есть и технические решения: robust training, differential privacy, federated learning. Но они либо слишком дорогие, либо снижают качество моделей. Компании выбирают между безопасностью и производительностью. И обычно выбирают второе.

Будущее: война за данные

Data poisoning станет обычным инструментом корпоративного шпионажа и конкурентной борьбы. Зачем взламывать серверы конкурента, если можно нанять его бывшего сотрудника, чтобы тот "скорректировал" данные для обучения ключевой модели?

Уже сейчас появляются услуги "этичного хакинга" ИИ-систем. Специалисты пытаются отравить данные клиента, чтобы показать уязвимости. Проблема в том, что после такой демонстрации полностью очистить датасет почти невозможно.

💡

Самый опасный сценарий — когда data poisoning используют для создания backdoor в моделях. Добавляют триггеры, которые активируют вредоносное поведение только при определенных условиях. Например, модель для автономного вождения работает нормально, но при виде определенного дорожного знака решает, что нужно резко затормозить.

Что делать прямо сейчас

Если вы работаете с ИИ, особенно в чувствительных областях вроде финансов, медицины или безопасности, начинайте думать о защите данных как о приоритете номер один.

1. Ведите детальный аудит всех, кто имеет доступ к тренировочным данным. Не только сотрудников, но и подрядчиков, временных работников, стажеров.

2. Внедряйте систему версионирования данных. Каждое изменение должно быть отслеживаемым, каждое добавление — проверяемым.

3. Используйте несколько независимых источников данных для критически важных моделей. Если одна выборка отравлена, другие могут компенсировать.

4. Регулярно тестируйте модели на "зараженных" данных. Создавайте контрольные наборы с известными ядовитыми примерами и смотрите, как модель на них реагирует.

Но главное — меняйте мышление. Data poisoning — это не техническая проблема, которую можно решить очередным патчем. Это человеческая проблема. Пока компании будут относиться к данным как к расходному материалу, а к сотрудникам, которые с ними работают, как к винтикам в системе — риски будут только расти.

И помните: следующий скандал с ИИ может начаться не с утечки данных или взлома системы. А с тихого, почти незаметного добавления неправильного лейбла к тысячам изображений кем-то, кому компания доверяла.

Data poisoning: как инсайдеры отравляют данные для обучения ИИ прямо сейчас