Игра Яндекс Практикума
Игра Яндекс Практикума
Игра Яндекс Практикума

Как развиваются технологии ИИ в области распознавания текста

Оцифровка документов, перевод текста на фотографии или анализ товаров на складе — со всеми этими задачами помогает справиться технология распознавания текста (OCR). Разберемся, чем она полезна для бизнеса и какие возможности для ее развития есть сейчас.

256 открытий3К показов
Как развиваются технологии ИИ в области распознавания текста

Всем привет! Меня зовут Ярослав Ращупкин, я менеджер ИИ-продуктов в компании Embedika. Поговорим про технологию распознавания текста и применение искусственного интеллекта. 

Как работает OCR

Оптическое распознавание символов (англ. optical character recognition, OCR) — технология распознавания текста, которая преобразует данные с печатных носителей в машинно-кодированный текст. Носителями могут быть разные предметы: документы, книги, счета, дорожные указатели и другие вещи, на которых есть текст. Разберем, как работает алгоритм: 

  • Оцифровка. Первым шагом система сканирует носитель, в результате получается растр — матрицу пикселей. На этом этапе формируется файл, который пока что и для пользователя, и для системы выглядит как привычный скан. 
Как развиваются технологии ИИ в области распознавания текста 1
  • Бинаризация. Растр может быть цветным или черно-белым, поэтому на втором шаге система приводит его обязательно к ч/б-формату, выравнивает угол наклона и размер. Во время обработки алгоритм будет проходить по тексту построчно, поэтому неправильно расположенные строки могут усложнить или остановить работу. 
Как развиваются технологии ИИ в области распознавания текста 2
  • Сегментация страницы. Третьим шагом алгоритм определяет в бинарном растре колонки и абзацы текста, слова и распознаваемые символы. 
Как развиваются технологии ИИ в области распознавания текста 3
  • Сохранение обработанной информации. Четвертый этап завершает подготовительную работу к распознаванию текста. Система сохраняет полученный файл в текстовом формате так, чтобы в нем отображались все распознанные символы и строки.
  • Классификация символов. Анализируя сохраненный документ, классификатор выявляет, какой символ изображен. Чаще всего программа может предложить несколько подходящих вариантов, у каждого из которых будет оценка точности соответствия, или сообщить, что элемент не является символом. Это значит, что элемент либо не относится к распознаваемому алфавиту, либо в целом не является буквой или знаком препинания, а может быть, например, рисунком на полях тетради.
Как развиваются технологии ИИ в области распознавания текста 4
Если предложено несколько вариантов, то алгоритмы, которые занимаются постобработкой, могут выявить, какое сочетание рядом стоящих символов наиболее вероятно. Для этого они используют словари и триграммы — часто встречающиеся последовательности из трех символов.
  • Постобработка и аналитика. На финальном этапе система на основе оценок вероятностей символов и информации от постобработчиков формирует из символов распознанный текст, выявляет потенциальные орфографические и грамматические ошибки. На сегодняшний день доля подозрительных трудно распознаваемых символов очень мала — в среднем менее 0,2%.
Как развиваются технологии ИИ в области распознавания текста 5

С развитием технологии система менялась: повышалась скорость работы и точность предсказаний, качество сканирования. В западных странах OCR стала активно развиваться уже в 1930-х годах, но в Советском Союзе собственная технология появилась позже. 

На сегодняшний день технологии OCR приобрели значительный размах: алгоритмы могут выявлять информацию в документах на паспортных контролях, распознавать номера машин при превышении скорости или оцифровывать счета. Современная OCR, разработанная с применением нейросетей, способна распознавать 15 страниц печатного текста за 1 секунду, причем делать это более чем на 100 языках.

Что можно сделать на основе распознанного текста

Программы с применением OCR используются повсеместно. Рассмотрим наиболее популярные сценарии:  

  • Оцифровка документов. Благодаря активным процессам цифровизации компании создают базы знаний, счетов, договоров. 
  • Анализ содержания, классификация и суммаризация текста. Современные сервисы на основе ИИ определяют тип документа. Они распознают суть и составляют небольшие выжимки с главной информацией. На основе этих данных сервисы могут классифицировать документ и направить его в нужную базу данных, а также маршрутизировать между сотрудниками. 
  • Перевод. Онлайн-переводчики позволяют по фото определить, что написано в меню в ресторанах, на дорожных знаках или документах на иностранном языке и сохранить текст для дальнейшего применения. 
  • Генерация нового контента на основе распознанного. Изучив распознанный текст, система может предложить дополнения или исправления, переписать его в нужном стиле и формате. Например, на основе полученного письма ИИ может составить вариант письма-ответа, а при анализе юридических документов подсветить неверно указанную информацию: сроки договоров или номера соглашений.  
  • Распознавание эмоциональной окраски текста. На сегодняшний день искусственный интеллект может определять тональность текста. В отзывах на картах или сервисах-отзовиках выявлять негативные и позитивные комментарии, а также анализировать посты в социальных сетях. На основе этих данных бренды могут адаптировать коммуникационную стратегию и улучшать клиентский сервис. 

Это достаточно общие возможности сервисов с OCR, которые могут быть полезны и обычным пользователям. Для бизнеса у сервисов на основе ИИ и OCR есть очевидные преимущества в виде автоматизации и ускорения процессов в самых разных сферах. 

Как распознавание текста может помочь бизнесу

  1. Финансистам: обрабатывать финансовые документы, чеки и счета. Например, отечественный сервис Soica, резидент Сколково, помогает сканировать и анализировать счета-фактуры и акты. Сервис помогает ускорить процесс обработки данных в 2 раза и снизить его стоимость на 50%.
  2. Грузоперевозчикам и логистам: анализировать информацию на грузах и в почте. Система «Солво» распознает данные на номерах грузовых машин, регистрирует приезд и отъезд транспортных средств в грузовых терминалах автомобильных и железных дорог и морских путей. Кроме того, алгоритм может выявлять повреждения контейнеров с грузами и составлять акты осмотров. 
  3. Сотрудникам магазинов и складов: распознавать данные о продуктах и складских запасах. Например, в Яндекс Лавке еще в прошлом году начали обновлять информацию о товарах с помощью нейросетей и OCR. Технология сканирует этикетку продукта, распознает текст, а нейросеть на основе этой информации заполняет карточку товара. Внедрение ИИ позволяет ускорить процесс и уменьшить количество ошибок из-за человеческого фактора. Кроме того, на складах Яндекс Маркета используются роботы, которые очень быстро сканируют палеты, что позволяет каждые два часа актуализировать данные о наличии товаров. 
  4. Юристам: распознавать, оцифровывать и обрабатывать документы, выявлять риски. Сервис Contract проверяет договора на соответствие юридическим нормам, выявляет риски и предлагает исправления. Более того, компании могут обратиться за внедрением решения в свою систему ЭДО. В этом случае готовый продукт будет адаптирован под конкретные требования бизнеса и логично встроен во всю цепочку работы с документами. 

Перспективы развития OCR с внедрением ИИ

Технологии распознавания текста уже достаточно сильно интегрированы в жизнь обычных людей и работу бизнеса, а возможности искусственного интеллекта помогают сделать сервисы более понятными и автоматизировать рутинные процессы. Хотя технологии продвинулись достаточно далеко, все еще есть блокеры и направления, которые задают вектор будущих работ. 

Увеличение точности распознавания за счет применения технологий ИИ. На сегодняшний день 99,9% точности обеспечивают сервисы с частичной верификацией человеком, поэтому применение LLM может увеличить точность распознавания за счет контекстного предсказания без участия человека. 

Логическое продолжение OCR — ICR, интеллектуальное распознавание символов. Такие системы могут достаточно точно определять рукописный текст, анализировать информацию в старых, выцветших книгах и по контексту предлагать наиболее релевантный вариант оцифровки. Благодаря расширению возможностей интеллектуальной обработки текста растет спрос на распознавание информации из различных источников, например, библиотек, архивов, а также дипломов, паспортов и других документов. 

Следите за новыми постами
Следите за новыми постами по любимым темам
256 открытий3К показов