Как развиваются технологии ИИ в области распознавания текста
Оцифровка документов, перевод текста на фотографии или анализ товаров на складе — со всеми этими задачами помогает справиться технология распознавания текста (OCR). Разберемся, чем она полезна для бизнеса и какие возможности для ее развития есть сейчас.
256 открытий3К показов
Всем привет! Меня зовут Ярослав Ращупкин, я менеджер ИИ-продуктов в компании Embedika. Поговорим про технологию распознавания текста и применение искусственного интеллекта.
Как работает OCR
Оптическое распознавание символов (англ. optical character recognition, OCR) — технология распознавания текста, которая преобразует данные с печатных носителей в машинно-кодированный текст. Носителями могут быть разные предметы: документы, книги, счета, дорожные указатели и другие вещи, на которых есть текст. Разберем, как работает алгоритм:
- Оцифровка. Первым шагом система сканирует носитель, в результате получается растр — матрицу пикселей. На этом этапе формируется файл, который пока что и для пользователя, и для системы выглядит как привычный скан.
- Бинаризация. Растр может быть цветным или черно-белым, поэтому на втором шаге система приводит его обязательно к ч/б-формату, выравнивает угол наклона и размер. Во время обработки алгоритм будет проходить по тексту построчно, поэтому неправильно расположенные строки могут усложнить или остановить работу.
- Сегментация страницы. Третьим шагом алгоритм определяет в бинарном растре колонки и абзацы текста, слова и распознаваемые символы.
- Сохранение обработанной информации. Четвертый этап завершает подготовительную работу к распознаванию текста. Система сохраняет полученный файл в текстовом формате так, чтобы в нем отображались все распознанные символы и строки.
- Классификация символов. Анализируя сохраненный документ, классификатор выявляет, какой символ изображен. Чаще всего программа может предложить несколько подходящих вариантов, у каждого из которых будет оценка точности соответствия, или сообщить, что элемент не является символом. Это значит, что элемент либо не относится к распознаваемому алфавиту, либо в целом не является буквой или знаком препинания, а может быть, например, рисунком на полях тетради.
- Постобработка и аналитика. На финальном этапе система на основе оценок вероятностей символов и информации от постобработчиков формирует из символов распознанный текст, выявляет потенциальные орфографические и грамматические ошибки. На сегодняшний день доля подозрительных трудно распознаваемых символов очень мала — в среднем менее 0,2%.
С развитием технологии система менялась: повышалась скорость работы и точность предсказаний, качество сканирования. В западных странах OCR стала активно развиваться уже в 1930-х годах, но в Советском Союзе собственная технология появилась позже.
На сегодняшний день технологии OCR приобрели значительный размах: алгоритмы могут выявлять информацию в документах на паспортных контролях, распознавать номера машин при превышении скорости или оцифровывать счета. Современная OCR, разработанная с применением нейросетей, способна распознавать 15 страниц печатного текста за 1 секунду, причем делать это более чем на 100 языках.
Что можно сделать на основе распознанного текста
Программы с применением OCR используются повсеместно. Рассмотрим наиболее популярные сценарии:
- Оцифровка документов. Благодаря активным процессам цифровизации компании создают базы знаний, счетов, договоров.
- Анализ содержания, классификация и суммаризация текста. Современные сервисы на основе ИИ определяют тип документа. Они распознают суть и составляют небольшие выжимки с главной информацией. На основе этих данных сервисы могут классифицировать документ и направить его в нужную базу данных, а также маршрутизировать между сотрудниками.
- Перевод. Онлайн-переводчики позволяют по фото определить, что написано в меню в ресторанах, на дорожных знаках или документах на иностранном языке и сохранить текст для дальнейшего применения.
- Генерация нового контента на основе распознанного. Изучив распознанный текст, система может предложить дополнения или исправления, переписать его в нужном стиле и формате. Например, на основе полученного письма ИИ может составить вариант письма-ответа, а при анализе юридических документов подсветить неверно указанную информацию: сроки договоров или номера соглашений.
- Распознавание эмоциональной окраски текста. На сегодняшний день искусственный интеллект может определять тональность текста. В отзывах на картах или сервисах-отзовиках выявлять негативные и позитивные комментарии, а также анализировать посты в социальных сетях. На основе этих данных бренды могут адаптировать коммуникационную стратегию и улучшать клиентский сервис.
Это достаточно общие возможности сервисов с OCR, которые могут быть полезны и обычным пользователям. Для бизнеса у сервисов на основе ИИ и OCR есть очевидные преимущества в виде автоматизации и ускорения процессов в самых разных сферах.
Как распознавание текста может помочь бизнесу
- Финансистам: обрабатывать финансовые документы, чеки и счета. Например, отечественный сервис Soica, резидент Сколково, помогает сканировать и анализировать счета-фактуры и акты. Сервис помогает ускорить процесс обработки данных в 2 раза и снизить его стоимость на 50%.
- Грузоперевозчикам и логистам: анализировать информацию на грузах и в почте. Система «Солво» распознает данные на номерах грузовых машин, регистрирует приезд и отъезд транспортных средств в грузовых терминалах автомобильных и железных дорог и морских путей. Кроме того, алгоритм может выявлять повреждения контейнеров с грузами и составлять акты осмотров.
- Сотрудникам магазинов и складов: распознавать данные о продуктах и складских запасах. Например, в Яндекс Лавке еще в прошлом году начали обновлять информацию о товарах с помощью нейросетей и OCR. Технология сканирует этикетку продукта, распознает текст, а нейросеть на основе этой информации заполняет карточку товара. Внедрение ИИ позволяет ускорить процесс и уменьшить количество ошибок из-за человеческого фактора. Кроме того, на складах Яндекс Маркета используются роботы, которые очень быстро сканируют палеты, что позволяет каждые два часа актуализировать данные о наличии товаров.
- Юристам: распознавать, оцифровывать и обрабатывать документы, выявлять риски. Сервис Contract проверяет договора на соответствие юридическим нормам, выявляет риски и предлагает исправления. Более того, компании могут обратиться за внедрением решения в свою систему ЭДО. В этом случае готовый продукт будет адаптирован под конкретные требования бизнеса и логично встроен во всю цепочку работы с документами.
Перспективы развития OCR с внедрением ИИ
Технологии распознавания текста уже достаточно сильно интегрированы в жизнь обычных людей и работу бизнеса, а возможности искусственного интеллекта помогают сделать сервисы более понятными и автоматизировать рутинные процессы. Хотя технологии продвинулись достаточно далеко, все еще есть блокеры и направления, которые задают вектор будущих работ.
Увеличение точности распознавания за счет применения технологий ИИ. На сегодняшний день 99,9% точности обеспечивают сервисы с частичной верификацией человеком, поэтому применение LLM может увеличить точность распознавания за счет контекстного предсказания без участия человека.
Логическое продолжение OCR — ICR, интеллектуальное распознавание символов. Такие системы могут достаточно точно определять рукописный текст, анализировать информацию в старых, выцветших книгах и по контексту предлагать наиболее релевантный вариант оцифровки. Благодаря расширению возможностей интеллектуальной обработки текста растет спрос на распознавание информации из различных источников, например, библиотек, архивов, а также дипломов, паспортов и других документов.
256 открытий3К показов