Ваш PDF-парсер все еще ползает? Пора менять двигатель
Вы загружаете отчет на 200 страниц, запускаете скрипт, идете за кофе, возвращаетесь... и видите, что прогресс-бар едва переполз за 10%. Знакомо? Классический OCR, будь то Tesseract 5.3.3 или даже свежий PaddleOCR с ppocr-v5, работает по принципу "медленно, но верно". А что, если верно, но в три раза быстрее?
На 27.03.2026 открытый фреймворк MinerU-Diffusion переворачивает представление об оптическом распознавании. Он не улучшает старый алгоритм – он использует диффузионные модели для декодирования текста прямо из визуальных представлений страниц. Результат: скорость обработки PDF вырастает в 2.5-3.2 раза на том же железе.
1Что сжирает время в обычном OCR?
Традиционный пайплайн: найти текст на изображении, сегментировать строки, распознать символы, собрать в слова, исправить ошибки. Каждый этап – отдельная модель или эвристика. Каждая коррекция – дополнительные вычисления. Локальный OCR для MacBook Pro показывает, как это бьет по производительности на потребительском железе.
MinerU-Diffusion делает финт: он смотрит на страницу как на целое и генерирует текст. Не распознает по кусочкам, а предсказывает наиболее вероятную последовательность символов, используя обученную диффузионную модель. Это похоже на то, как Stable Diffusion генерирует картинки, только на выходе – чистый текст с координатами bounding boxes.
MLX на Apple Silicon: где берутся лишние 200% скорости
Здесь кроется главный трюк. Фреймворк MLX от Apple (актуальная версия 2.1.0 на март 2026) оптимизирует вычисления для чипов M-series так, что матричные операции летают. MinerU-Diffusion использует MLX не как опцию, а как основу для инференса на Mac. Разработчики переписали критичные части кода под этот фреймворк.
Зачем это нужно? Представьте, что вы индексируете 4 миллиона PDF для поисковой системы. Разница в 3 раза – это месяцы против лет вычислений. Или просто возможность обрабатывать документы в реальном времени, а не пачками на ночь.
С кем воюет MinerU-Diffusion? Честное сравнение
| Инструмент | Скорость (стр./сек на M3) | Точность (F1 на DocLayNet) | Особенность |
|---|---|---|---|
| MinerU-Diffusion 1.2 | 2.4 | 0.94 | Диффузионное декодирование, MLX |
| PaddleOCR ppocr-v5 | 0.8 | 0.92 | Классический pipeline, многоязычный |
| EasyOCR 1.7.2 | 0.7 | 0.89 | Простота установки, 80+ языков |
| Tesseract 5.3.3 | 0.5 | 0.85 | Ветеран, сложные шрифты |
Цифры говорят сами за себя. MinerU-Diffusion выигрывает в скорости, почти не теряя в точности. Но есть нюанс: он лучше всего работает на документах с четкой структурой – отчеты, финансовые выкладки, научные статьи. Для скринов мемов в Twitter или рукописных заметок стоит выбрать что-то другое.
Интересно, что проект вырос из MinerU – системы для парсинга SEC filings. Разработчики устали ждать, пока классический OCR обработает тысячи страниц финансовых отчетов, и создали свой велосипед. Который оказался гоночным болидом.
Как начать использовать? Не "установите 10 зависимостей", а одна команда
Самый приятный сюрприз – установка. Вместо танцев с pip, conda и компиляцией C++ библиотек, как в некоторых других решениях, здесь все сводится к:
pip install mineru-diffusionВеса модели (основанной на Vision Transformer и диффузионном декодере) автоматически загружаются с Hugging Face Hub. Базовая модель весит около 1.4 ГБ. Если вы работаете с длинными PDF, можно использовать режим потоковой обработки, который не загружает весь документ в память.
Полный код, обучающие скрипты и датасеты для тонкой настройки лежат в открытом доступе на GitHub. Это не черный ящик: можно кастомизировать модель под свои типы документов, добавляя собственные данные в обучение.
2Кому это реально нужно? Три сценария
- Юристы и финансисты, которые парсят сотни договоров и отчетов в день. Время – деньги, буквально.
- Разработчики локальных RAG-систем. Когда ваш Ollama с Qwen3:8B ждет данных, а OCR их не успевает готовить.
- Исследователи, работающие с научными архивами. Точность и скорость критичны для мета-анализа тысяч статей.
А вот если ваша задача – разовые конвертации пары сканов в Word, возможно, не стоит заморачиваться. Для этого хватит и онлайн-сервисов.
Под капотом: почему диффузия, а не трансформер?
Здесь начинается магия. Современные Vision-Language модели (например, та же архитектура, что в PDFiles) часто используют трансформер-декодеры для генерации текста. Диффузионные модели, которые доминируют в генерации изображений, в OCR до 2025 года применялись редко.
Идея в том, что процесс диффузии (последовательное удаление шума) лучше справляется с неоднозначностью в низкокачественных сканах. Модель учится восстанавливать текст из "зашумленного" визуального представления, что оказывается более устойчивым к артефактам сжатия, размытию и плохому освещению.
Технически, это требует больше тренировочных данных, но команда MinerU использовала тот же датасет FinePDFs, что и для предобучения больших языковых моделей. Миллионы разнообразных документов обеспечили устойчивость к разным шрифтам и макетам.
Важно: модель все еще хуже справляется с курсивными и декоративными шрифтами, чем тот же Tesseract с его 30-летним багажом эвристик. Для стандартных документов – идеально, для средневековых манускриптов – нет.
Что дальше? Разработчики обещают интеграцию с системами автоматического понимания документов (ADE), где OCR – только первый шаг. А еще – поддержку GPU NVIDIA через PyTorch, потому что MLX, при всей его эффективности на Mac, не единственная платформа в мире.
Прогноз на 2026-2027: диффузионные подходы станут стандартом для скоростного OCR в коммерческих продуктах. А те, кто продолжит цепляться за Tesseract, будут чувствовать себя как водители карбюраторных жигулей на фоне теслы.
Попробуйте MinerU-Diffusion на своем проекте. Если ваш пайплайн обработки документов не ускорится минимум вдвое – значит, вы и так уже использовали что-то очень продвинутое. Но такое бывает редко.