Amazon представила Textract, технологию для корректного распознавания текста

Новости

Amazon Textract распознаёт текст в сложных документах, определяет таблицы и другие элементы, с которыми не справляются многие OCR-системы.

1К открытий1К показов

Amazon представила технологию Textract — интеллектуальный инструмент для оптического распознавания символов (OCR) и их конвертации в цифровые форматы.

Как это работает?

Технология распознавания текста существует давно. Однако классические методы зачастую неэффективны.

Во-первых, система может легко перепутать единицу со строчной L или прописной I. То же справедливо для нуля и прописной О.

Во-вторых, при изменении шаблона, на основе которого формируется документ, данные могут перемешаться из-за неверного распознавания. Последнюю проблему и решает Textract.

Как заявил CEO AWS Энди Джесси (Andy Jassy), классическое оптическое распознавание просто «читает» текст, тогда как Amazon Textract способен определять форматирование текста, графические элементы и прочие особенности вёрстки. Ясси показал это при сравнении результатов обычного OCR и разработки компании. Первая система распознала таблицу как строку текста, а вторая корректно перенесла данные в цифровой формат.

Зачем это нужно?

По словам Ясси, Textract достаточно умён, чтобы определить номера документов, даты рождения и адреса, после чего правильно интерпретировать вне зависимости от того, в каком месте страницы они находятся. В случае изменения шаблона система не пропустит неправильный результат.

В октябре 2018 года Microsoft рассказала о своём инструменте Snip Insights, который умеет распознавать лица и объекты на фото, а также текст, который в дальнейшем можно перевести. Но технология распознавания текста может быть опасна. В феврале 2018 года в инструменте для снятия скриншотов в macOS была найдена брешь, которая позволяла злоумышленникам получать содержимое экрана.

1К открытий1К показов

Также рекомендуем

8 российских telegram-каналов про ИИ и промтинг

Собрали русскоязычные каналы про нейросети и промтинг, которые помогают разобраться и работать с ChatGPT, Midjourney, Stable Diffusion и другими ИИ-инструментами.

🔥 Китайский ИИ DeepSeek на 100% совместим с OpenAI API

DeepSeek стал полноценной альтернативой OpenAI API с идентичным форматом API и простым переключением. Китайская новинка предлагает модели, аналогичные GPT-4, но бесплатно

Анатомия данных: как устроено управление информацией

Объем информации растет, но без системного подхода данные превращаются в шум. Разбираемся, как в компаниях структурируют, анализируют и защищают данные, чтобы они работали на бизнес, а не создавали хаос.

Разработчики о новом ИИ-агенте GitHub Copilot — действительно ли он хорош?

GitHub Copilot получил Agent Mode: теперь ИИ исправляет баги, оптимизирует код и выполняет команды в терминале. Разработчики делятся впечатлениями