Портировав свою систему оптического распознавания текста Tesseract на JavaScript, разработчики из MIT существенно упростили процесс создания приложений для распознавания изображений.
Tesseract.js, выпущенная в этом месяце, включает в себя поддержку более 60 языков, автоматическую ориентацию текста и распознавание скриптов. Запускаемая в браузере или на сервере через Node.js, эта библиотека предоставляет простой интерфейс для чтения абзацев, слов и отдельных букв.
Разработчики посчитали, что портирование системы на JavaScript будет очень удобно пользователям, ведь с установкой версии на C++ могут возникнуть проблемы, а на некоторые конфигурации программа не установится вовсе. Преимущество JS-библиотеки заключается в том, что она может работать на любой системе с JS-интерпретатором.
Слой API сделан максимально простым в использовании. После добавления скрипта в проект достаточно написать:
Tesseract.recognize(myImage).then(function (result) { console.log(result) })
Разработчики сообщают, что программа настроена для работы с документами, а не фотографиями. Для обработки фотографий рекомендуется повысить их контрастность, отмасштабировать размер и убрать фоновые шумы. Все эти функции скоро будут реализованы в самой библиотеке.
Источник: ITWorld