Sun Finance автоматизировал ID extraction и fraud detection с AWS GenAI

Когда 60% документов проверяют люди — это катастрофа

Sun Finance — не стартап из гаража. Это международная финтех-группа, которая выдает микрозаймы в десятках стран. И у них была классическая боль: каждый второй клиентский документ (паспорт, водительские права, ID-карта) проходил через руки оператора. 60% всей заявочной документации. Вручную. Медленно. Дорого.

А еще мошенники не дремали: фотошопленные паспорта, склеенные сканы, подмененные данные. Стандартные регекспы и простые OCR-движки пасовали. Sun Finance нуждалась в решении, которое не просто вытащит текст из картинки, а поймет — реальный это документ или липа. И быстро.

Кстати, тема мошенничества с документами — горячая не только в финтехе. Недавно мы разбирали случай, когда фото из документов превратили в порно — там защита личности тоже дала трещину.

В игру входит AWS GenAI Innovation Center

В начале 2025 года Sun Finance пришла в AWS GenAI Innovation Center. Не за консультацией — за рабочим прототипом. Команда AWS предложила не просто улучшить существующий OCR, а построить систему на генеративном AI, которая бы решала две задачи одновременно: извлечение структурированных данных из ID-документов и детекцию подделок. Срок — 6 месяцев.

Архитектура получилась такой:

Входной поток: фото/скан документа загружается в Amazon S3, триггерит Lambda.
Предобработка: Amazon Textract вытаскивает сырой текст и координаты полей. Но это только база.
Умная магия: на Amazon Bedrock развернули генеративную модель (Anthropic Claude 4 или аналогичную — точную версию Sun не раскрывает, но это не важно). Модель получает сырой текст, изображение и метаданные, и делает две вещи: нормализует поля (имя, дата, номер) и запускает логический анализ на мошенничество.
Детекция аномалий: AI ищет расхождения между данными из разных полей, проверяет шрифты, тени, метаданные файла. Если документ выглядит «странно» — уходит на дополнительную проверку.

💡

Аналогичный подход к обработке документов уже тестировали другие. Например, Associa заставила ИИ разгрести 26 ТБ документов — масштаб другой, но принцип тот же: генеративный AI как универсальный парсер.

Цифры, ради которых стоит платить

Sun Finance не стесняется делиться результатами. Вот что получилось спустя полгода после внедрения:

Показатель	До	После
Доля ручной обработки документов	60%	5%
Время обработки одного документа	~4 минуты	30 секунд
Точность извлечения данных	87%	99.2%
Процент выявленных подделок	12%	95%

Пять процентов ручных проверок остались — для сложных кейсов, где AI сомневается. Это нормально: тот же Klarna держит 3-4% ручных операций даже при почти полной автоматизации. Полностью исключать человека рискованно — мошенники слишком изобретательны.

Как ловят подделки: неочевидные фишки

Генеративный AI в этой системе делает не только «прочитай и запиши». Модель обучена на тысячах примеров реальных и поддельных документов. Она ищет паттерны, которые глазом не заметишь:

Расхождение между датой выдачи и датой рождения — AI проверяет логику (вы не могли получить права в 5 лет).
Несоответствие шрифта и фона — если текст на документе «наклеен» поверх, модель видит.
Аномалии в метаданных файла — например, EXIF-теги, которые говорят, что фото сделано на iPhone, но разрешение как у сканера 90-х.

Звучит как научная фантастика? Нет. Банальная комбинация Amazon Textract + Bedrock + кастомного промпт-инжиниринга. Правда, промпты там писали несколько недель — но результат того стоит.

Таймлайн: от идеи до продакшена

Проект шёл по классической схеме AWS GenAI Innovation Center: спринты с демо каждые две недели.

Месяц 1-2: исследование типов документов, сбор датасета, выбор модели. Выяснили, что Anthropic Claude на Bedrock справляется лучше остальных с многоязычными ID (Sun Finance работает в 10 странах).
Месяц 3-4: построение пайплайна — Textract для OCR, Bedrock для анализа, Lambda для оркестрации. Создали систему скоринга подозрительных документов.
Месяц 5-6: A/B тестирование на реальном трафике. Точность достигла 99% на валидации. Запуск в 3 странах, потом раскатка на все.

Кстати, подобный подход к автоматизации уже пробовали в медицине — AWS Connect Health внедряет HIPAA-совместимых AI-агентов, где тоже важна точность и защита данных.

Что дальше? Детекция подделок на видео и liveness check

Sun Finance не планирует останавливаться. В roadmap на 2026 год — анализ селфи с паспортом (liveness detection) через генеративный AI. Чтобы мошенник не мог просто поднести чужой документ к веб-камере. Модель будет оценивать естественность движений, отражения в глазах, соответствие текстуры кожи и освещения. Технология уже существует, но для финтеха — это следующий шаг после того, как научились читать бумагу.

Сам факт, что компания смогла за 6 месяцев перевести основную массу проверок на AI, — отличный аргумент для тех, кто сомневается в ROI генеративных моделей. Не надо ждать AGI. Достаточно правильного пайплайна и грамотных промптов. Sun Finance — живой пример того, как AI не заменяет людей полностью, но делает их работу в 10 раз быстрее.

Подписаться на канал

Как Sun Finance заставил AI читать паспорта и ловить мошенников за 6 месяцев