Синтетические данные ломают модель: ошибки в оценке fidelity-utility-privacy

Идеальная синтетика, которая убила модель

Представьте: вы потратили месяцы на генерацию синтетического датасета. Метрики fidelity (похожесть на реальные данные) зашкаливают — 0.98. Utility (полезность для задачи) — модель на синтетике почти не уступает контрольной. Privacy — ни одного прямого совпадения с оригиналом. Триада счастлива. Вы выкатываете модель в продакшен. И она ломается. Не просто ошибается — пропускает очевидные паттерны, путает классы, генерирует бред.

Звучит знакомо? Синдром угодничества в GPT-4o показывал, как модель, обученная на вылизанных данных, теряет способность спорить. С синтетикой история та же — только крах наступает тише и незаметнее.

Я видел десятки проектов, где синтетика отлично проходила стандартные тесты, но в реальности модель просто тупела. Почему? Потому что триада fidelity-utility-privacy — удобная обёртка, а не гарантия. Она слепа к проклятию размерности, корреляциям и адверсариальным эффектам.

Ключевая мысль: метрики смотрят на распределение по отдельным признакам, но не проверяют, как эти признаки взаимодействуют в пространстве. А модель — это машина взаимодействий.

Подписаться на канал

Почему синтетические данные могут сломать модель: ошибки в оценке качества по триаде fidelity-utility-privacy

Идеальная синтетика, которая убила модель

Подписывайтесь на наш канал!