Как развиваются технологии ИИ в области распознавания текста

Оцифровка документов, перевод текста на фотографии или анализ товаров на складе — со всеми этими задачами помогает справиться технология распознавания текста (OCR). Разберемся, чем она полезна для бизнеса и какие возможности для ее развития есть сейчас.

710 открытий6К показов

Всем привет! Меня зовут Ярослав Ращупкин, я менеджер ИИ-продуктов в компании Embedika. Поговорим про технологию распознавания текста и применение искусственного интеллекта.

Как работает OCR

Оптическое распознавание символов (англ. optical character recognition, OCR) — технология распознавания текста, которая преобразует данные с печатных носителей в машинно-кодированный текст. Носителями могут быть разные предметы: документы, книги, счета, дорожные указатели и другие вещи, на которых есть текст. Разберем, как работает алгоритм:

Оцифровка. Первым шагом система сканирует носитель, в результате получается растр — матрицу пикселей. На этом этапе формируется файл, который пока что и для пользователя, и для системы выглядит как привычный скан.

Как развиваются технологии ИИ в области распознавания текста 1

Бинаризация. Растр может быть цветным или черно-белым, поэтому на втором шаге система приводит его обязательно к ч/б-формату, выравнивает угол наклона и размер. Во время обработки алгоритм будет проходить по тексту построчно, поэтому неправильно расположенные строки могут усложнить или остановить работу.

Как развиваются технологии ИИ в области распознавания текста 2

Сегментация страницы. Третьим шагом алгоритм определяет в бинарном растре колонки и абзацы текста, слова и распознаваемые символы.

Как развиваются технологии ИИ в области распознавания текста 3

Сохранение обработанной информации. Четвертый этап завершает подготовительную работу к распознаванию текста. Система сохраняет полученный файл в текстовом формате так, чтобы в нем отображались все распознанные символы и строки.
Классификация символов. Анализируя сохраненный документ, классификатор выявляет, какой символ изображен. Чаще всего программа может предложить несколько подходящих вариантов, у каждого из которых будет оценка точности соответствия, или сообщить, что элемент не является символом. Это значит, что элемент либо не относится к распознаваемому алфавиту, либо в целом не является буквой или знаком препинания, а может быть, например, рисунком на полях тетради.

Как развиваются технологии ИИ в области распознавания текста 4

Если предложено несколько вариантов, то алгоритмы, которые занимаются постобработкой, могут выявить, какое сочетание рядом стоящих символов наиболее вероятно. Для этого они используют словари и триграммы — часто встречающиеся последовательности из трех символов.

Постобработка и аналитика. На финальном этапе система на основе оценок вероятностей символов и информации от постобработчиков формирует из символов распознанный текст, выявляет потенциальные орфографические и грамматические ошибки. На сегодняшний день доля подозрительных трудно распознаваемых символов очень мала — в среднем менее 0,2%.

Как развиваются технологии ИИ в области распознавания текста 5

С развитием технологии система менялась: повышалась скорость работы и точность предсказаний, качество сканирования. В западных странах OCR стала активно развиваться уже в 1930-х годах, но в Советском Союзе собственная технология появилась позже.

На сегодняшний день технологии OCR приобрели значительный размах: алгоритмы могут выявлять информацию в документах на паспортных контролях, распознавать номера машин при превышении скорости или оцифровывать счета. Современная OCR, разработанная с применением нейросетей, способна распознавать 15 страниц печатного текста за 1 секунду, причем делать это более чем на 100 языках.

Что можно сделать на основе распознанного текста

Программы с применением OCR используются повсеместно. Рассмотрим наиболее популярные сценарии:

Оцифровка документов. Благодаря активным процессам цифровизации компании создают базы знаний, счетов, договоров.
Анализ содержания, классификация и суммаризация текста. Современные сервисы на основе ИИ определяют тип документа. Они распознают суть и составляют небольшие выжимки с главной информацией. На основе этих данных сервисы могут классифицировать документ и направить его в нужную базу данных, а также маршрутизировать между сотрудниками.
Перевод. Онлайн-переводчики позволяют по фото определить, что написано в меню в ресторанах, на дорожных знаках или документах на иностранном языке и сохранить текст для дальнейшего применения.
Генерация нового контента на основе распознанного. Изучив распознанный текст, система может предложить дополнения или исправления, переписать его в нужном стиле и формате. Например, на основе полученного письма ИИ может составить вариант письма-ответа, а при анализе юридических документов подсветить неверно указанную информацию: сроки договоров или номера соглашений.
Распознавание эмоциональной окраски текста. На сегодняшний день искусственный интеллект может определять тональность текста. В отзывах на картах или сервисах-отзовиках выявлять негативные и позитивные комментарии, а также анализировать посты в социальных сетях. На основе этих данных бренды могут адаптировать коммуникационную стратегию и улучшать клиентский сервис.

Это достаточно общие возможности сервисов с OCR, которые могут быть полезны и обычным пользователям. Для бизнеса у сервисов на основе ИИ и OCR есть очевидные преимущества в виде автоматизации и ускорения процессов в самых разных сферах.

Как распознавание текста может помочь бизнесу

Финансистам: обрабатывать финансовые документы, чеки и счета. Например, отечественный сервис Soica, резидент Сколково, помогает сканировать и анализировать счета-фактуры и акты. Сервис помогает ускорить процесс обработки данных в 2 раза и снизить его стоимость на 50%.
Грузоперевозчикам и логистам: анализировать информацию на грузах и в почте. Система «Солво» распознает данные на номерах грузовых машин, регистрирует приезд и отъезд транспортных средств в грузовых терминалах автомобильных и железных дорог и морских путей. Кроме того, алгоритм может выявлять повреждения контейнеров с грузами и составлять акты осмотров.
Сотрудникам магазинов и складов: распознавать данные о продуктах и складских запасах. Например, в Яндекс Лавке еще в прошлом году начали обновлять информацию о товарах с помощью нейросетей и OCR. Технология сканирует этикетку продукта, распознает текст, а нейросеть на основе этой информации заполняет карточку товара. Внедрение ИИ позволяет ускорить процесс и уменьшить количество ошибок из-за человеческого фактора. Кроме того, на складах Яндекс Маркета используются роботы, которые очень быстро сканируют палеты, что позволяет каждые два часа актуализировать данные о наличии товаров.
Юристам: распознавать, оцифровывать и обрабатывать документы, выявлять риски. Сервис Contract проверяет договора на соответствие юридическим нормам, выявляет риски и предлагает исправления. Более того, компании могут обратиться за внедрением решения в свою систему ЭДО. В этом случае готовый продукт будет адаптирован под конкретные требования бизнеса и логично встроен во всю цепочку работы с документами.

Перспективы развития OCR с внедрением ИИ

Технологии распознавания текста уже достаточно сильно интегрированы в жизнь обычных людей и работу бизнеса, а возможности искусственного интеллекта помогают сделать сервисы более понятными и автоматизировать рутинные процессы. Хотя технологии продвинулись достаточно далеко, все еще есть блокеры и направления, которые задают вектор будущих работ.

Увеличение точности распознавания за счет применения технологий ИИ. На сегодняшний день 99,9% точности обеспечивают сервисы с частичной верификацией человеком, поэтому применение LLM может увеличить точность распознавания за счет контекстного предсказания без участия человека.

Логическое продолжение OCR — ICR, интеллектуальное распознавание символов. Такие системы могут достаточно точно определять рукописный текст, анализировать информацию в старых, выцветших книгах и по контексту предлагать наиболее релевантный вариант оцифровки. Благодаря расширению возможностей интеллектуальной обработки текста растет спрос на распознавание информации из различных источников, например, библиотек, архивов, а также дипломов, паспортов и других документов.

710 открытий6К показов

Также рекомендуем

OpenAI анонсировала функции ChatGPT, которые сделают поиск в Google бесполезным

ChatGPT получит визуальный поиск, интерактивные ответы и встроенные приложения, из-за которых привычный поиск Google может стать ненужным

iOS 26 научилась ставить видеозвонок на паузу, если заметит, что вы начали раздеваться

iOS 26 теперь ставит видеозвонок FaceTime на паузу, если заметит, что вы раздеваетесь или показываете интимный контент — защита приватности

Как встроить распознавание паспорта РФ в Android: пошаговое руководство

Пошагово объясняем, как встроить быстрое и безопасное распознавание паспорта РФ в Android. Нативное приложение с возможностью распознавания ДУЛ на устройстве.

Глава AWS: «Заменять джуниоров на ИИ — одна из самых глупых идей»

Глава AWS Мэтт Гарман назвал замену джуниоров на ИИ «глупой идеей», подчеркнув их роль в будущем кадровом резерве и росте бизнеса