Когда 60% документов проверяют люди — это катастрофа
Sun Finance — не стартап из гаража. Это международная финтех-группа, которая выдает микрозаймы в десятках стран. И у них была классическая боль: каждый второй клиентский документ (паспорт, водительские права, ID-карта) проходил через руки оператора. 60% всей заявочной документации. Вручную. Медленно. Дорого.
А еще мошенники не дремали: фотошопленные паспорта, склеенные сканы, подмененные данные. Стандартные регекспы и простые OCR-движки пасовали. Sun Finance нуждалась в решении, которое не просто вытащит текст из картинки, а поймет — реальный это документ или липа. И быстро.
Кстати, тема мошенничества с документами — горячая не только в финтехе. Недавно мы разбирали случай, когда фото из документов превратили в порно — там защита личности тоже дала трещину.
В игру входит AWS GenAI Innovation Center
В начале 2025 года Sun Finance пришла в AWS GenAI Innovation Center. Не за консультацией — за рабочим прототипом. Команда AWS предложила не просто улучшить существующий OCR, а построить систему на генеративном AI, которая бы решала две задачи одновременно: извлечение структурированных данных из ID-документов и детекцию подделок. Срок — 6 месяцев.
Архитектура получилась такой:
- Входной поток: фото/скан документа загружается в Amazon S3, триггерит Lambda.
- Предобработка: Amazon Textract вытаскивает сырой текст и координаты полей. Но это только база.
- Умная магия: на Amazon Bedrock развернули генеративную модель (Anthropic Claude 4 или аналогичную — точную версию Sun не раскрывает, но это не важно). Модель получает сырой текст, изображение и метаданные, и делает две вещи: нормализует поля (имя, дата, номер) и запускает логический анализ на мошенничество.
- Детекция аномалий: AI ищет расхождения между данными из разных полей, проверяет шрифты, тени, метаданные файла. Если документ выглядит «странно» — уходит на дополнительную проверку.
Цифры, ради которых стоит платить
Sun Finance не стесняется делиться результатами. Вот что получилось спустя полгода после внедрения:
| Показатель | До | После |
|---|---|---|
| Доля ручной обработки документов | 60% | 5% |
| Время обработки одного документа | ~4 минуты | 30 секунд |
| Точность извлечения данных | 87% | 99.2% |
| Процент выявленных подделок | 12% | 95% |
Пять процентов ручных проверок остались — для сложных кейсов, где AI сомневается. Это нормально: тот же Klarna держит 3-4% ручных операций даже при почти полной автоматизации. Полностью исключать человека рискованно — мошенники слишком изобретательны.
Как ловят подделки: неочевидные фишки
Генеративный AI в этой системе делает не только «прочитай и запиши». Модель обучена на тысячах примеров реальных и поддельных документов. Она ищет паттерны, которые глазом не заметишь:
- Расхождение между датой выдачи и датой рождения — AI проверяет логику (вы не могли получить права в 5 лет).
- Несоответствие шрифта и фона — если текст на документе «наклеен» поверх, модель видит.
- Аномалии в метаданных файла — например, EXIF-теги, которые говорят, что фото сделано на iPhone, но разрешение как у сканера 90-х.
Звучит как научная фантастика? Нет. Банальная комбинация Amazon Textract + Bedrock + кастомного промпт-инжиниринга. Правда, промпты там писали несколько недель — но результат того стоит.
Таймлайн: от идеи до продакшена
Проект шёл по классической схеме AWS GenAI Innovation Center: спринты с демо каждые две недели.
- Месяц 1-2: исследование типов документов, сбор датасета, выбор модели. Выяснили, что Anthropic Claude на Bedrock справляется лучше остальных с многоязычными ID (Sun Finance работает в 10 странах).
- Месяц 3-4: построение пайплайна — Textract для OCR, Bedrock для анализа, Lambda для оркестрации. Создали систему скоринга подозрительных документов.
- Месяц 5-6: A/B тестирование на реальном трафике. Точность достигла 99% на валидации. Запуск в 3 странах, потом раскатка на все.
Кстати, подобный подход к автоматизации уже пробовали в медицине — AWS Connect Health внедряет HIPAA-совместимых AI-агентов, где тоже важна точность и защита данных.
Что дальше? Детекция подделок на видео и liveness check
Sun Finance не планирует останавливаться. В roadmap на 2026 год — анализ селфи с паспортом (liveness detection) через генеративный AI. Чтобы мошенник не мог просто поднести чужой документ к веб-камере. Модель будет оценивать естественность движений, отражения в глазах, соответствие текстуры кожи и освещения. Технология уже существует, но для финтеха — это следующий шаг после того, как научились читать бумагу.
Сам факт, что компания смогла за 6 месяцев перевести основную массу проверок на AI, — отличный аргумент для тех, кто сомневается в ROI генеративных моделей. Не надо ждать AGI. Достаточно правильного пайплайна и грамотных промптов. Sun Finance — живой пример того, как AI не заменяет людей полностью, но делает их работу в 10 раз быстрее.