Какова скорость Nemotron OCR v2?

34.7 страниц в секунду на одной NVIDIA A100.

На скольких языках работает Nemotron OCR v2?

Более 100 языков, включая основные европейские, азиатские и арабские.

Что такое синтетический датасет в Nemotron OCR v2?

Датасет, сгенерированный алгоритмически, содержит 10 миллионов изображений текста с разметкой для обучения модели.

Nemotron OCR v2: быстрая многоязычная модель NVIDIA

Когда OCR должен быть быстрым и точным: что принесла вторая версия Nemotron

Вы все еще используете Tesseract для распознавания документов? В 2026 году это похоже на попытку запустить DOS-программу на квантовом компьютере. NVIDIA выпустила Nemotron OCR v2 - модель, которая обрабатывает 34.7 страниц в секунду на одной A100 и понимает текст на 100+ языках. И все это на синтетических данных.

Ключевые цифры: 34.7 стр/с на NVIDIA A100, метрика NED (Normalized Edit Distance) ниже 2% для основных языков, поддержка более 100 языков из коробки.

Архитектура, которая не тормозит

Nemotron OCR v2 построена на гибридной архитектуре: детектор текста на основе Vision Transformer и распознаватель с механизмом внимания. Но главное - она обучена полностью на синтетических данных. NVIDIA сгенерировала миллионы страниц с текстом на разных языках, шрифтах, фонах и искажениях. Реальность? Она сложнее. Но синтетика покрывает 95% случаев.

Синтетический датасет: зачем платить за разметку?

Датасет, который выпустила NVIDIA, содержит 10 миллионов изображений текста с разметкой. Все сгенерировано алгоритмически. Преимущество? Нулевая стоимость разметки и контроль над сложностью сцен. Недостаток? Модель может спотыкаться на реальных данных, которые не попали в распределение. Но NVIDIA утверждает, что дополнение датасета - дело нескольких дней.

💡

Синтетические данные - это не жульничество. В 2026 году это стандарт для обучения OCR-моделей, потому что ручная разметка текста на сотне языков стоит дороже, чем разработка модели.

Сравнение: кто быстрее и точнее?

Модель	Скорость (стр/с, A100)	Точность (NED)	Языки
Nemotron OCR v2	34.7	1.8%	100+
Qianfan-OCR 4B	12.5	2.3%	192
Tesseract 5.3 (2026)	8.2	5.1%	60

Qianfan-OCR 4B поддерживает почти 200 языков, но платит за это скоростью. Tesseract, даже в версии 5.3, отстает по точности. Nemotron OCR v2 - компромисс между скоростью, точностью и покрытием.

Где применять Nemotron OCR v2?

Обработка документов в реальном времени: сканирование паспортов на границе, чеков в магазине.
Многоязычные архивы: оцифровка исторических документов на разных языках.
Интеграция в RAG-системы: как часть конвейера для мультимодального RAG.
Автоматическое понимание документов (ADE): первый шаг перед семантическим анализом, как описано в гайде по ADE.

Кому подойдет эта модель?

Если вам нужно распознавать текст на нескольких языках быстро и с высокой точностью - Nemotron OCR v2. Если вы работаете с экзотическими языками, которых нет в сотне, возможно, стоит посмотреть на Qianfan-OCR 4B. Для чисто английских документов можно обойтись и Tesseract, но зачем? Тем более, что для сложных случаев, вроде рукописного текста, существуют специализированные локальные модели.

Модель доступна через NVIDIA AI Enterprise. Для тестирования можно использовать облачные инстансы с GPU. Ссылка на NVIDIA AI Enterprise (партнерская).

Прогноз: через год синтетические данные станут стандартом для всех OCR-моделей. А Tesseract окончательно переедет в музей.

Подписаться на канал

Nemotron OCR v2: обзор быстрой многоязычной модели NVIDIA на синтетических данных (датасет и бенчмарки)