Скин на НГ, перетяжка
Скин на НГ, перетяжка
Скин на НГ, перетяжка

Почему банки нанимают ученых для распознавания паспортов, а не open-source модели

Студент собирает распознавание паспортов за выходные, а банки платят миллионы за специальные решения. Разбираемся, почему бесплатные AI-модели не подходят для бизнеса и при чём здесь реальная наука

70 открытий301 показов
Почему банки нанимают ученых для распознавания паспортов, а не open-source модели

К 2026 году распознавание документов стало обычной функцией финансовых сервисов. Открытые модели ИИ доступны всем, и даже студенты на хакатоне могут за несколько дней собрать работающий прототип. Но крупные банки продолжают покупать дорогие промышленные решения от специализированных компаний.

Разбираемся, чем учебный прототип отличается от промышленной системы, почему банкам важны точность и безопасность, и что происходит, когда распознавание работает плохо.

Уровень 1: учебный прототип на открытых моделях

Технологии компьютерного зрения стали доступными. То, что десять лет назад требовало опытной команды разработчиков, сегодня может сделать группа студентов за выходные.

Стандартный подход выглядит так: берут открытую модель (Llama, Qwen, Mistral, Gemma или DeepSeek), обучают на небольшом наборе фотографий паспортов и получают систему, которая распознает печатный текст с точностью около 70%. Для учебного проекта или демонстрации на конференции этого хватает. Для реального бизнеса — нет.

Что не работает в таком прототипе:

  • Не распознает текст, написанный от руки
  • Не обрабатывает документы с бликами или при плохом освещении
  • Не проверяет, настоящий паспорт или поддельный
  • Требует хороших условий для съемки
  • Точность 70% значит, что каждый третий документ распознается неправильно

Для учебы подходит. Для банка, который обрабатывает миллионы паспортов, — недопустимо.

Уровень 2: сервис на готовых API

Следующий уровень — решения от разработчиков. Они используют готовые инструменты: подключают API от Google или Microsoft, комбинируют несколько открытых моделей, добавляют словари и правила проверки. В зависимости от бюджета проводят дополнительное обучение моделей. Результат — точность распознавания около 80%, как у стандартных облачных сервисов.

Многие сервисы повышают точность вручную. Они используют метод HITL (Human-in-the-Loop): отправляют фотографии документов людям на краудсорсинговые платформы, где те вручную перепечатывают данные. Это позволяет в рекламе показывать высокие цифры точности.

Три серьезные проблемы такого подхода

Зависимость от иностранных технологий

Если система работает через API зарубежной компании, банк не контролирует свою инфраструктуру. При санкциях или политических решениях сервис могут отключить. Лицензии могут заблокировать. Доступ могут ограничить без предупреждения.

Риск утечки данных

Когда фотографии паспортов или данные из них отправляют третьим лицам (особенно на краудсорсинговые платформы с неизвестными исполнителями), возникает риск утечки. По закону 152-ФЗ штраф за утечку персональных данных может достигать 500 миллионов рублей. В особо тяжких случаях возможна уголовная ответственность до 10 лет лишения свободы. Персональные данные не должны выходить за пределы защищенного контура банка.

Ограниченные возможности

Облачный сервис работает в простых ситуациях, но не может заменить систему, созданную под требования крупного банка. Зависимость от интернета добавляет задержки. Невозможно настроить систему под специфику конкретного банка. Нельзя обрабатывать данные внутри защищенного контура организации.

Уровень 3: распознавание как задача бизнеса

Банки оценивают технологию с точки зрения бизнеса. Распознавание паспорта — это первый шаг в обслуживании клиента. От него зависит, насколько быстро человек откроет счет и начнет пользоваться услугами банка. Любая задержка или ошибка влияет на решение клиента остаться или уйти к конкуренту.

Что нужно банку

Высокая скорость

Система должна обработать документ за секунды. Если клиент ждет или вынужден несколько раз переснимать паспорт, он может закрыть приложение и открыть приложение другого банка. Если ИИ работает медленнее или ошибается чаще, чем человек, его внедрение не имеет смысла.

Работа внутри инфраструктуры банка

Данные не должны уходить на внешние серверы. Это важно для безопасности и скорости: зависимость от интернета создает задержки и точки, где система может отказать.

Независимость от иностранных технологий

Система не должна зависеть от API зарубежных компаний, политических решений или возможных отключений. Она должна работать на российских операционных системах, мобильных устройствах и в браузере. Работу в браузере обеспечивают технологии WebAssembly — их внедряют только ведущие разработчики в этой области.

Точность в любых условиях

Паспорт должен распознаваться при плохом освещении, если документ наклонен, есть блики, съемка сделана на недорогом телефоне. Система должна обрабатывать текст, написанный от руки — в паспортах часто встречается ручное заполнение. Нужно распознавать не только основной разворот, но и страницу с пропиской, включая рукописные штампы.

Проверка подлинности документа

Это самая сложная задача. Ошибка здесь дорого обходится банку. Если система неправильно отклоняет 10% настоящих клиентов, банк теряет огромные деньги. Когда конкуренция высокая и борьба идет за каждого клиента, нужны технологии с минимальным процентом ошибок.

Уровень 4: распознавание как научная задача

Создание промышленных систем распознавания и проверки подлинности — это не задача для студентов или разработчиков на готовых API. Этим занимаются команды мирового уровня. Они годами проводят исследования, создают новые архитектуры нейросетей, публикуют научные работы, получают патенты. На это уходят миллиарды рублей.

Таких компаний в мире мало: Jumio, Onfido, Apple, SumSub. Обычно в одной стране есть максимум одна команда такого уровня, а в большинстве стран их нет совсем. У этих компаний есть общее: серьезная научная база, признание в мире и огромные вложения в исследования.

Ситуация в России

Первой компанией, создавшей промышленные системы компьютерного зрения для распознавания документов в России, была Cognitive Technologies. Позже компания переключилась на автоматизацию в сельском хозяйстве. Затем была ABBYY, но в 2022 году компания полностью ушла из России.

Сейчас лидер российского рынка систем распознавания паспортов — Smart Engines. Компания работает с 2016 года. Ее основали ученые с большим опытом в анализе изображений. Компания создает технологии для точного распознавания паспортов РФ, других документов и объектов на фотографиях и видео.

Почему банкам не подходят простые системы

Создавать системы распознавания стало проще

Студенты делают учебные проекты, разработчики создают сервисы на готовых инструментах. Но банкам нужен другой уровень: очень высокая точность, работа на любых устройствах, независимость от иностранных технологий, защита от мошенников и удобство для клиентов.

Разница видна в жизни

В одном банке клиент ждет, система медленно работает, выдает ошибки, просит переснять паспорт. В другом банке всё происходит за несколько секунд без лишних действий — независимо от того, как сделана фотография. Клиенты выбирают банк, где всё работает быстро и без проблем.

Цена ошибки

Для банка ошибка в распознавании или задержка даже на несколько секунд приводит к потере клиентов, снижению процента успешных регистраций, проблемам с репутацией, прямым финансовым потерям, претензиям от регулятора и проигрышу конкурентам. Даже необходимость покупать дорогие видеокарты (GPU) может стать причиной отказа от системы.

Все эти требования делают выбор системы распознавания важным стратегическим решением. Лучше один раз заплатить за качество и надежность, чем потом постоянно нести убытки из-за ошибок системы.

Следите за новыми постами
Следите за новыми постами по любимым темам
70 открытий301 показов