Что такое диффузионный OCR и чем он лучше классического?

Диффузионный OCR использует модели, аналогичные генерации изображений, для предсказания текста целиком из визуального представления страницы, а не пошагового распознавания символов. Это дает ускорение в 2.5-3 раза при сопоставимой точности для структурированных документов.

Как установить и начать использовать MinerU-Diffusion?

Установка выполняется одной командой: pip install mineru-diffusion. Модель автоматически загрузит веса с Hugging Face Hub. Для использования на Apple Silicon с максимальной скоростью убедитесь, что установлен фреймворк MLX (версия 2.1.0 или новее).

Диффузионный OCR MinerU-Diffusion: ускорение парсинга PDF в 3 раза | GitHub, MLX

Ваш PDF-парсер все еще ползает? Пора менять двигатель

Вы загружаете отчет на 200 страниц, запускаете скрипт, идете за кофе, возвращаетесь... и видите, что прогресс-бар едва переполз за 10%. Знакомо? Классический OCR, будь то Tesseract 5.3.3 или даже свежий PaddleOCR с ppocr-v5, работает по принципу "медленно, но верно". А что, если верно, но в три раза быстрее?

На 27.03.2026 открытый фреймворк MinerU-Diffusion переворачивает представление об оптическом распознавании. Он не улучшает старый алгоритм – он использует диффузионные модели для декодирования текста прямо из визуальных представлений страниц. Результат: скорость обработки PDF вырастает в 2.5-3.2 раза на том же железе.

1Что сжирает время в обычном OCR?

Традиционный пайплайн: найти текст на изображении, сегментировать строки, распознать символы, собрать в слова, исправить ошибки. Каждый этап – отдельная модель или эвристика. Каждая коррекция – дополнительные вычисления. Локальный OCR для MacBook Pro показывает, как это бьет по производительности на потребительском железе.

MinerU-Diffusion делает финт: он смотрит на страницу как на целое и генерирует текст. Не распознает по кусочкам, а предсказывает наиболее вероятную последовательность символов, используя обученную диффузионную модель. Это похоже на то, как Stable Diffusion генерирует картинки, только на выходе – чистый текст с координатами bounding boxes.

MLX на Apple Silicon: где берутся лишние 200% скорости

Здесь кроется главный трюк. Фреймворк MLX от Apple (актуальная версия 2.1.0 на март 2026) оптимизирует вычисления для чипов M-series так, что матричные операции летают. MinerU-Diffusion использует MLX не как опцию, а как основу для инференса на Mac. Разработчики переписали критичные части кода под этот фреймворк.

💡

На M3 Max с 64 ГБ оперативной памяти тесты показывают обработку 100 страниц PDF за 41 секунду против 128 секунд у PaddleOCR с аналогичной точностью. Это не "немного быстрее". Это другой класс скорости для локальных RAG-систем.

Зачем это нужно? Представьте, что вы индексируете 4 миллиона PDF для поисковой системы. Разница в 3 раза – это месяцы против лет вычислений. Или просто возможность обрабатывать документы в реальном времени, а не пачками на ночь.

С кем воюет MinerU-Diffusion? Честное сравнение

Инструмент	Скорость (стр./сек на M3)	Точность (F1 на DocLayNet)	Особенность
MinerU-Diffusion 1.2	2.4	0.94	Диффузионное декодирование, MLX
PaddleOCR ppocr-v5	0.8	0.92	Классический pipeline, многоязычный
EasyOCR 1.7.2	0.7	0.89	Простота установки, 80+ языков
Tesseract 5.3.3	0.5	0.85	Ветеран, сложные шрифты

Цифры говорят сами за себя. MinerU-Diffusion выигрывает в скорости, почти не теряя в точности. Но есть нюанс: он лучше всего работает на документах с четкой структурой – отчеты, финансовые выкладки, научные статьи. Для скринов мемов в Twitter или рукописных заметок стоит выбрать что-то другое.

Интересно, что проект вырос из MinerU – системы для парсинга SEC filings. Разработчики устали ждать, пока классический OCR обработает тысячи страниц финансовых отчетов, и создали свой велосипед. Который оказался гоночным болидом.

Как начать использовать? Не "установите 10 зависимостей", а одна команда

Самый приятный сюрприз – установка. Вместо танцев с pip, conda и компиляцией C++ библиотек, как в некоторых других решениях, здесь все сводится к:

pip install mineru-diffusion

Веса модели (основанной на Vision Transformer и диффузионном декодере) автоматически загружаются с Hugging Face Hub. Базовая модель весит около 1.4 ГБ. Если вы работаете с длинными PDF, можно использовать режим потоковой обработки, который не загружает весь документ в память.

Полный код, обучающие скрипты и датасеты для тонкой настройки лежат в открытом доступе на GitHub. Это не черный ящик: можно кастомизировать модель под свои типы документов, добавляя собственные данные в обучение.

2Кому это реально нужно? Три сценария

Юристы и финансисты, которые парсят сотни договоров и отчетов в день. Время – деньги, буквально.
Разработчики локальных RAG-систем. Когда ваш Ollama с Qwen3:8B ждет данных, а OCR их не успевает готовить.
Исследователи, работающие с научными архивами. Точность и скорость критичны для мета-анализа тысяч статей.

А вот если ваша задача – разовые конвертации пары сканов в Word, возможно, не стоит заморачиваться. Для этого хватит и онлайн-сервисов.

Под капотом: почему диффузия, а не трансформер?

Здесь начинается магия. Современные Vision-Language модели (например, та же архитектура, что в PDFiles) часто используют трансформер-декодеры для генерации текста. Диффузионные модели, которые доминируют в генерации изображений, в OCR до 2025 года применялись редко.

Идея в том, что процесс диффузии (последовательное удаление шума) лучше справляется с неоднозначностью в низкокачественных сканах. Модель учится восстанавливать текст из "зашумленного" визуального представления, что оказывается более устойчивым к артефактам сжатия, размытию и плохому освещению.

Технически, это требует больше тренировочных данных, но команда MinerU использовала тот же датасет FinePDFs, что и для предобучения больших языковых моделей. Миллионы разнообразных документов обеспечили устойчивость к разным шрифтам и макетам.

Важно: модель все еще хуже справляется с курсивными и декоративными шрифтами, чем тот же Tesseract с его 30-летним багажом эвристик. Для стандартных документов – идеально, для средневековых манускриптов – нет.

Что дальше? Разработчики обещают интеграцию с системами автоматического понимания документов (ADE), где OCR – только первый шаг. А еще – поддержку GPU NVIDIA через PyTorch, потому что MLX, при всей его эффективности на Mac, не единственная платформа в мире.

Прогноз на 2026-2027: диффузионные подходы станут стандартом для скоростного OCR в коммерческих продуктах. А те, кто продолжит цепляться за Tesseract, будут чувствовать себя как водители карбюраторных жигулей на фоне теслы.

Попробуйте MinerU-Diffusion на своем проекте. Если ваш пайплайн обработки документов не ускорится минимум вдвое – значит, вы и так уже использовали что-то очень продвинутое. Но такое бывает редко.

Подписаться на канал

MinerU-Diffusion: как диффузионный OCR ускоряет парсинг PDF в 3 раза (код на GitHub, поддержка MLX)