Вы до сих пор пользуетесь OCR? Пора выйти из каменного века

Загружаете PDF в Tesseract, получаете гору текста, а потом неделями пишете регулярки, чтобы вытащить из него номер счета и дату? Знакомо. Классический OCR мертв. Вернее, он стал лишь первой ступенькой в новой реальности, где документ понимает сам себя.

Проблема не в распознавании символов. С этим в 2026 году справляются даже смартфоны. Проблема в связях. В том, что компьютер видит "ИНН 7734567890", но не понимает, что это идентификатор вашего контрагента, который нужно положить в поле `vendor_tax_id`. Вы по-прежнему вручную составляете маппинг полей для каждого нового типа счета? Это и есть тот разрыв между текстом и смыслом, который съедает сотни человеко-часов.

OCR (Optical Character Recognition) выдает текст. ADE (Automated Document Understanding) выдает структурированные данные, готовые к запросу SQL. Разница - как между куском руды и готовым микропроцессором.

Эволюция за 10 лет: от пикселей к семантике

Раньше все было просто: сканируем, применяем Tesseract, молимся. Потом появился ABBYY с своими языковыми пакетами и распознаванием таблиц. Это был прорыв, но все еще на уровне "угадай символ".

Поворотный момент - 2022-2024 годы, когда трансформеры ворвались в Computer Vision. Модели типа Mistral OCR 3 перестали просто угадывать буквы. Они начали понимать контекст страницы. Слово "Total" в нижнем правом углу? Скорее всего, это итоговая сумма. Рядом цифры - значит, это и есть сумма. Это уже не распознавание, а логический вывод.

К 2026 году сформировался стек ADE, который состоит из трех обязательных слоев:

Визуальное понимание: Модель анализирует макет документа, выделяет блоки (заголовок, таблица, подпись), определяет их иерархию. Здесь лидируют специализированные VLM (Vision-Language Models).
Семантическое извлечение: Локальные модели или тонко настроенные LLM "читают" выделенные блоки и извлекают сущности (даты, суммы, наименования) по заранее заданной схеме.
Верификация и связывание: Отдельный этап, где система проверяет противоречия (например, сумма в таблице не сходится с итогом) и связывает данные между страницами (номер договора из шапки с приложениями).

Современный стек ADE: что актуально в марте 2026

Забудьте про монолитные решения. Теперь это всегда пайплайн из нескольких лучших в своем классе инструментов. Вот что я использую в продакшене.

1 Детекция и сегментация документа

Первый шаг - разбить документ на осмысленные части. Старые методы на основе OpenCV (поиск контуров, горизонтальных линий) работают только на идеальных сканах. В реальности документы кривые, с тенями, со смешанными макетами.

Решение: использовать предобученную модель для детекции макета документа. Лидеры на 2026 год - DocLayNet и PubLayNet. Их модели, дообученные на ваших данных, определяют блоки с точностью под 98%. Альтернатива - использовать универсальные VLM, такие как GLM-OCR или LightOnOCR-2, которые совмещают детекцию и распознавание в одном флаконе. Но они требуют больше ресурсов.

# Пример: использование DocLayNet для сегментации (актуально на 2026)
from transformers import AutoModelForImageSegmentation, AutoImageProcessor
import torch

processor = AutoImageProcessor.from_pretrained("doclaynet/layout-segmentation-v2")
model = AutoModelForImageSegmentation.from_pretrained("doclaynet/layout-segmentation-v2")

# Загружаем изображение документа
inputs = processor(images=document_image, return_tensors="pt")
with torch.no_grad():
    outputs = model(**inputs)

# outputs содержит маски для классов: текст, заголовок, таблица, список и т.д.
segmentation_map = outputs.logits.argmax(dim=1).squeeze().cpu().numpy()

2 Распознавание текста: не все OCR одинаковы

Для простых, качественных сканов все еще можно использовать Tesseract 5.3 (вышла в конце 2025 с улучшенной поддержкой нейросетевых движков LSTM). Но его точность на плохих сканах, рукописных пометках или специфичных шрифтах (например, в чеках или старых архивных документах) оставляет желать лучшего.

💡

Мое правило: если документ поступает из сканера офисного качества - Tesseract. Если это фото телефона, факс или документ с печатями - сразу переходим на нейросетевой OCR, например, на базе архитектуры TRBA или коммерческие облачные API.

Критически важный нюанс: OCR должен возвращать не просто строки текста, а координаты bounding box для каждого слова или токена. Без этой геометрии последующее связывание текста с элементами макета невозможно.

3 Связывание и извлечение сущностей

Вот здесь начинается магия. У нас есть геометрические блоки (где таблица) и распознанный текст с координатами. Нужно собрать пазл.

Подход 1: Правила на основе геометрии. Например, все текстовые блоки, попавшие внутрь bounding box таблицы, принадлежат этой таблице. Далее, анализируя выравнивание по вертикали/горизонтали, восстанавливаем строки и столбцы. Работает стабильно, но требует тонкой настройки для каждого типа макета.

Подход 2: Использование LLM с промптингом. Мы отправляем в модель типа GPT-4o или Claude 3.5 (партнерская ссылка) текстовое представление страницы (сохраненное расположение слов) и промпт: "Извлеки все товарные позиции из этого счета. Верни в JSON". Мощно, но дорого и медленно для потоковой обработки.

Подход 3 (золотая середина 2026 года): Мелкие, специально обученные модели для извлечения. Используем архитектуру, которая принимает на вход и текст, и признаки макета (тип блока, координаты), и выдает размеченную последовательность. Например, модель на базе LayoutLMv3, дообученная на ваших аннотированных данных. Это дает баланс скорости, стоимости и точности.

# Псевдокод: пайплайн связывания текста с макетом
from layout_parser import LayoutProcessor
from entity_extractor import InvoiceModel

# Инициализируем процессор макета и модель извлечения
layout_processor = LayoutProcessor.from_pretrained("doclaynet/layout-segmentation-v2")
extractor = InvoiceModel.from_pretrained("my-company/invoice-extractor-v1")

# Обрабатываем документ
layouts = layout_processor(document_image)
text_blocks = ocr_engine(document_image)  # Возвращает список слов с bbox

# Связываем: для каждого layout блока находим слова, чьи bbox внутри него
for layout_block in layouts:
    if layout_block.type == "table":
        words_in_table = [word for word in text_blocks if is_inside(word.bbox, layout_block.bbox)]
        # Восстанавливаем таблицу из слов
        table_data = reconstruct_table(words_in_table)
        # Извлекаем сущности из таблицы
        extracted_items = extractor.extract(table_data)

Где все ломается: подводные камни ADE

Теория гладкая. Практика - ухабистая дорога. Вот топ-5 ошибок, которые сведут на нет все ваши усилия.

Ошибка	Последствие	Как избежать
Игнорирование качества исходника	Garbage in, garbage out. Нейросети не творят чудес с фото 100х100 пикселей.	Внедрить препроцессинг: выравнивание, повышение разрешения, удаление шума. Библиотеки like OpenCV или пеак
Обучение на одном типе документов	Модель идеально работает со счетами от "Альфы", а на счетах от "Беты" падает.	Собирать датасет из максимально разнообразных источников. Использовать аугментации: наложение печатей, искажение перспективы.
Неверный порядок шагов в пайплайне	Сначала извлекается текст, потом анализируется макет. Теряется связь слова с его местом на странице.	Сначала макет, потом OCR в пределах блоков. Или использовать модель, делающую и то, и другое одновременно (современные VLM).
Отсутствие валидации результатов	Система тихо "съедает" ошибку, и некорректные данные попадают в бухгалтерию.	Внедрить правила пост-обработки: проверка контрольных сумм, форматов дат, перекрестная проверка данных из разных частей документа.
Попытка сделать одно решение для всех	Один пайплайн для паспортов, счетов и технических чертежей. Точность стремится к нулю.	Создавать отдельные, узкоспециализированные конвейеры для каждого критически важного типа документа. Объединять их через оркестратор.

Частые вопросы (без сладких обещаний)

Вопрос: Можно ли заменить всю эту инженерию одной большой моделью типа GPT-4 Vision?
Ответ: Можно. Если ваш бюджет бесконечен, а допустимая задержка обработки одного документа - 30 секунд. Для потоковой обработки тысяч счетов в час - нет. Плюс, большие мультимодальные модели на 2026 год все еще склонны к галлюцинациям в сложных таблицах, как показало независимое тестирование.

Вопрос: Стоит ли покупать готовое коммерческое решение (ABBYY, Adobe)?
Ответ: Зависит от объема и уникальности ваших документов. Готовые решения от Adobe Acrobat AI (партнерская ссылка) хороши для стандартных документов вроде договоров или паспортов. Но если у вас специфичные инженерные ведомости или медицинские формы, вам все равно придется дообучать и кастомизировать. Считайте TCO за 3 года: лицензии против зарплат data scientist.

Вопрос: Как начать с нуля, если нет размеченных данных?
Ответ: Используйте слабый надзор (weak supervision). Запустите пайплайн на основе правил (геометрия + ключевые слова) на своих документах. Результаты будут шумными, но это лучше, чем ничего. Эти данные станут первым тренировочным набором. Аннотируйте вручную только ошибки, которые обнаружит модель. Постепенно точность вырастет. Инструменты - Prodigy, Label Studio.

Вопрос: ADE справится с арабскими или азиатскими языками?
Ответ: Справится, но готовьтесь к х10 сложности. Проблемы не столько в распознавании (современные OCR с этим уже хорошо справляются), сколько в макете (справа налево, вертикальный текст) и сложной диакритике. Требуются специально обученные модели макета. Изучите опыт проектов по арабским документам.

Что дальше? Контекст - король

Следующий рубеж - переход от понимания одного документа к пониманию потока документов. Система должна видеть, что счет на 100к рублей от "ООО Рога" связан с договором от прошлого месяца и уставом компании, который вы загрузили год назад. Она должна ловить несоответствия: например, ИНН в счете не совпадает с ИНН в карточке контрагента.

Это уровень корпоративной памяти, где ADE становится ядром RAG-системы для всех внутренних документов. Документы сами начинают отвечать на вопросы: "А мы уже работали с этим поставщиком?" или "Почему в этом месяце выросли расходы на канцелярию?".

Но это уже тема для следующего гайда. А пока - перестаньте писать регулярные выражения для каждого нового шаблона PDF. Начните учить модель понимать макет. Результаты поразят вас уже через квартал.

Подписаться на канал

От OCR к ADE: полный гайд по автоматическому пониманию документов с помощью AI