Разметка - это ад. Но только если делать её вручную

Вы только что собрали терабайты сырых данных для своего ML-проекта. Эйфория проходит, когда понимаете: теперь это всё нужно разметить. Вручную. Команда из пяти человек, три месяца работы, бюджет, который тает на глазах. Знакомо? Это классическая ловушка, в которую попадают 90% ML-проектов.

Проблема не в том, что разметка сложная. Проблема в том, что её делают тупо. Сидят люди, кликают мышкой, сходят с ума от монотонности, делают ошибки. А потом модель учится на этих ошибках, и вся затея летит к чертям. Звучит как неудачный анекдот, но это реальность большинства команд.

Главный миф: «Качественная разметка возможна только руками». Это ложь. Качественная разметка возможна при умном сочетании автоматизации и человеческого контроля. Руки нужны для того, чтобы исправлять ошибки алгоритмов, а не делать всю работу с нуля.

Зачем автоматизировать? Цифры не врут

Посчитаем. Разметка одного изображения для детекции объектов: 2-3 минуты. Датасет из 10 000 изображений: 300-500 часов. При средней ставке аннотатора $15 в час - это $4500-7500. И это только разметка, без проверки и исправлений. Теперь умножьте на количество итераций (потому что с первого раза никогда не получается).

Автоматизация сокращает эти затраты в 5-10 раз. Не идеально, не со 100% точностью, но достаточно, чтобы человеку оставалось только проверить и поправить. Как в той статье про автоматизацию разметки датасетов на CPU, где недели работы сжимались до нескольких часов.

Инструменты, которые не подведут (и те, что подведут)

Не все инструменты одинаково полезны. Некоторые созданы для галочки, другие - для работы.

Инструмент	Зачем нужен	Подводный камень
Label Studio	Универсальная платформа с поддержкой ML-бэкендов. Можно подключить свою модель для предразметки.	Требует времени на настройку. Из коробки - просто интерфейс для ручной разметки.
Snorkel	Программный подход. Пишете функции разметки (эвристики), система объединяет их в одну модель.	Нужны программисты. Не для менеджеров или аннотаторов.
Prodigy	Активное обучение в реальном времени. Дорого, но эффективно.	Цена. $490 за лицензию на одного пользователя.
CVAT	Бесплатный, с открытым кодом. Хорош для компьютерного зрения.	Интерфейс из 2010-х. Тормозит на больших датасетах.

Выбор инструмента зависит от задачи. Для быстрого старта с изображениями я бы взял Label Studio + предобученную YOLO. Для текстов - Snorkel, если есть кому писать функции. Prodigy - когда бюджет не ограничен и нужно максимальное качество.

Стратегии, которые работают (а не просто красивые слова)

Активное обучение (Active Learning): Модель сама выбирает, какие данные ей нужно разметить. Не всё подряд, а только те, где она неуверена. Экономит до 80% усилий. Внедрить сложно, но оно того стоит.
Полуавтоматическая разметка: Модель делает предварительную разметку, человек проверяет. Как в этом пайплайне для сегментации на CPU. Баланс между автоматизацией и качеством.
Разметка по эвристикам (Weak Supervision): Используете правила, ключевые слова, регулярные выражения. Snorkel построен на этой идее. Работает там, где есть хоть какая-то структура в данных.
Контроль качества разметки (QA): Не доверяйте никому. Ни машине, ни человеку. Вводите перекрёстную проверку, метрики согласия между аннотаторами (IoU для боксов, Cohen's kappa для классов).

💡

Самая частая ошибка - начинать с полной ручной разметки. Всегда запускайте предварительную автоматическую разметку, даже если у вас нет своей модели. Используйте публичные модели (CLIP для классификации, YOLO для детекции). Получите 60-70% точности, а потом доделывайте руками. Это в разы быстрее.

Пошаговый план: внедряем автоматизацию за неделю

Теория - это хорошо, но без конкретных шагов вы ничего не сделаете. Вот план, который работает для 80% задач.

1 Оцените данные и задачу

Что размечаем? Изображения, текст, аудио? Сколько классов? Есть ли публичные датасеты для предобучения? Ответы на эти вопросы определяют весь дальнейший путь. Если задача специфическая (например, обнаружение дефектов на сварных швах), возможно, придётся начать с ручной разметки небольшой партии. Но только небольшой!

2 Выберите и настройте инструмент

Для большинства подойдёт Label Studio. Установите его, подключите ML-бэкенд. Если размечаете изображения, используйте модель из Ultralytics (YOLOv8) или Detectron2. Для текста - какой-нибудь BERT из Hugging Face. Не стремитесь к идеальной модели. Нам нужно ускорить разметку, а не победить на соревновании.

# Пример запуска Label Studio с ML-бэкендом
label-studio start my_project --init --ml-backends http://localhost:9090

3 Настройте пайплайн предразметки

Данные не должны попадать к аннотаторам в сыром виде. Создайте скрипт, который пропускает их через модель и сохраняет предсказания в формате, понятном вашему инструменту разметки. Это может быть JSON, COCO, Pascal VOC. Главное - автоматизировать.

# Упрощённый пример предразметки изображений с YOLO
from ultralytics import YOLO
import json

model = YOLO('yolov8n.pt')
results = model('raw_images/', save=False, conf=0.5)

annotations = []
for result in results:
    boxes = result.boxes.xyxy.cpu().numpy()
    classes = result.boxes.cls.cpu().numpy()
    # Конвертируем в формат Label Studio...
    # annotations.append(...)

with open('pre_labels.json', 'w') as f:
    json.dump(annotations, f)

4 Внедрите контроль качества

Настройте в инструменте разметки проверку несколькими аннотаторами для части данных (скажем, 10%). Считайте метрики согласия. Если аннотаторы постоянно спорят - пересмотрите инструкцию по разметке. Иногда проблема не в людях, а в нечётких правилах.

После получения первой порции размеченных данных (хватит 500-1000 примеров) - обучите свою модель и используйте её для улучшения предразметки следующих партий. Это и есть активное обучение в простейшей форме.

Ошибки, которые сведут на нет все усилия

Экономия на инструкции для аннотаторов. Если вы не напишете подробную инструкцию (с примерами и контрпримерами), каждый будет размечать по-своему. Результат - мусор, а не датасет.
Игнорирование перекрёстной проверки. Один аннотатор = гарантированные ошибки. Всегда назначайте каждую задачу как минимум двум разным людям (или человеку и модели).
Попытка автоматизировать всё и сразу. Начните с простого: предразметка одной моделью. Потом добавьте активное обучение. Потом weak supervision. Как в любом нормальном переходе от прототипа к продакшену.
Разметка всех данных перед началом обучения. Это антипаттерн. Размечайте партиями, обучайте модель, смотрите, на каких данных она ошибается, размечайте больше таких данных. Итеративно.

Самый опасный сценарий: «Мы наняли 100 человек на аутсорсе, они быстро всё разметили, а модель не обучается». Проверяйте качество разметки постоянно, а не в конце. Исправить 10% ошибок легче, чем 50%.

Что дальше? Будущее уже здесь

Через пару лет ручная разметка будет восприниматься как кодирование на перфокартах. Тренды:

Foundation Models для разметки: GPT-4 для текста, SAM 2 для изображений. Задайте промпт - получите разметку. Пока дорого и не всегда точно, но технология развивается бешеными темпами.
Полностью автоматические пайплайны: Сбор данных -> предразметка -> активное обучение -> обучение модели -> деплой. Без человеческого вмешательства. Как в автоматизации обучения моделей с Codex, но для разметки.
Симуляция данных: Зачем размечать, если можно сгенерировать уже размеченные данные? Unreal Engine для синтетических датасетов, Diffusion модели для изображений. Этичный вопрос? Да. Но эффективный.

Мой совет: не ждите будущего. Начните автоматизировать разметку сегодня. Сэкономленные деньги и нервы окупятся уже в следующем проекте. А если упрётесь в ограничения инструментов - соберите свой пайплайн. Это не rocket science, просто инженерия.

И последнее: автоматизация разметки - это не про увольнение аннотаторов. Это про то, чтобы они занимались интеллектуальной работой (исправлением ошибок моделей), а не механической. Выигрывают все. Кроме, пожалуй, поставщиков кликеров для мышек.

Разметка данных: автоматизируй, экономь, избегай ошибок