Альфа-Банк внедрил сервис распознавания документов на основе решений с открытым исходным кодом, такие как TensorFlow, PyTorch, OpenCV и др.
Сервис разработан как аналог популярным платным решениям для распознавания данных из документов с использованием технологий компьютерного зрения и нейронных сетей. При этом он превосходит аналоги по качеству распознавания и скорости работы, являясь полностью автономным и обеспечивающим независимость от сторонних поставщиков, лицензионных ограничений и необходимости внешних доработок. Среднее время обработки одного документа составляет порядка 2 секунд, что в 10–15 раз быстрее коммерческого решения, которое использовалось в банке прежде. Это особенно важно для клиентских сервисов, где критична скорость обслуживания.
Весь процесс распознавания документов был разделен на 6 различных функций, для реализации каждой из которых была разработана и обучена собственная нейросетевая модель. В результате, 6 нейросетей последовательно отрабатывают функции: детекции документа на изображении, коррекции геометрии и выравнивание, классификации и валидации документа, сегментации ключевых полей, распознавания текста (OCR), а также постобработки и нормализации извлеченных данных.
В основе OCR-модуля для распознавания текстов лежит современная архитектура Parseq, сочетающая трансформеры и перестановочное декодирование для точного восстановления символов. Она заимствует лучшие практики из генеративного моделирования, такие как трансформеры и языковые модели, но фокусируется на дискриминативной задаче - точном восстановлении текста даже при низком качестве изображения. Сервис предполагает высокую гибкость интеграции и может использоваться как самостоятельное решение, так и в составе существующих систем, дополняя их и улучшая общие показатели качества и производительности.
Для реализации остальных этапов также применяются различные типы нейросетей: от классических полносвязных и сверточных архитектур до современных трансформеров, что обеспечило гибкость и адаптивность системы.
Первая внедренная задача, реализованная в рамках сервиса - распознавание основного разворота паспорта гражданина РФ, но используемый подход к обучению моделей позволяет создать аналогичные решения для других типов документов. При этом микросервисная архитектура поддерживает горизонтальное масштабирование и готова к работе в кластере Kubernetes, что обеспечивает стабильность при пиковых нагрузках.
«Мы всегда стараемся применять решения, которые улучшают клиентский опыт, делают взаимодействие банка с клиентом быстрее, удобнее, эффективнее. И такие наши внутренние решения позволяют нам быть флагманами клиентоцентричности на рынке. Разработка, поддержка и развитие сервиса полностью происходит без привлечения сторонних подрядчиков. Это обеспечивает дополнительную гибкость, безопасность и быструю адаптацию под новые требования, а отсутствие лицензионных платежей позволяет масштабировать созданные решения без дополнительных затрат со стороны банка», — отметила главный операционный директор Альфа-Банка, Нино Кодуа.
Альфа-Банк — крупнейший универсальный частный банк в России. На протяжении 35 лет занимает ведущие позиции во всех сегментах банковского бизнеса. Чистая прибыль банка по итогам 2024 года на основе международных стандартов финансовой отчетности (МСФО) достигла 210 млрд рублей. Клиентская база составляет более 2 млн корпоративных клиентов и 40 млн физических лиц по состоянию на май 2025 года. Альфа-Банк развивается по модели Phygital, сочетая цифровые инновации с эффективной сетью физического присутствия, которая насчитывает более 800 офисов и более 30 000 населённых пунктов с доставкой.