Китайский стартап запустил бесплатный сервис Otter для расшифровки устной речи

Сервис для распознавания речи Otter

Стартап AISense запустил бесплатный сервис Otter для конвертирования голосовых сообщений в текст. Он предназначен для расшифровки интервью, лекций и личных заметок.

Возможности и ошибки

На основе приложения лежит технология Ambient Voice Intelligence. Она распознает устную речь и в режиме реального времени конвертирует ее в текстовый формат. В ходе преобразования система генерирует ключевые слова, по которым можно найти нужные фрагменты записи.

При первом запуске Otter нужно прочитать вслух показанный на экране текст. Изучив запись, система создает «голосовой отпечаток» пользователя и в последующих записях отделяет его речь от реплик другого человека. Ссылку на аудиозапись с расшифрованным текстом можно отправить коллегам и работать над материалом всей командой.

В работе приложения возникают ошибки. Например, искусственный интеллект плохо расставляет знаки препинания и плохо распознает слова в шумных местах.

Otter

Otter сохраняет расшифрованные тексты и присваивает им теги

Преимущества Otter над аналогами

Главное преимущество Otter над аналогами — высокая точность распознавания при бесплатности сервиса. Остальные программы для расшифровки аудио либо допускают много ошибок, либо стоят достаточно дорого. Например, представленный в декабре 2017 года сервис Amazon Transcribe расшифровывает 200-минутную запись за 4,80 $. Приложение Otter доступно в App Store и Google Play. Пока оно бесплатно, но в будущем авторы хотят внедрить платную подписку.

Сервис своего времени

Разработкой Otter занимаются выходцы из Google и компании Nuance, занимающейся технологиями распознавания речи. Они представили приложение на выставке Mobile World Congress 2018, объявив, что они выбрали лучшее время для запуска.

Это идеальное время для запуска. Благодаря искусственному интеллекту и машинному обучению, в последние несколько лет качество распознавания голоса заметно повысилось. Годами ранее создать такое приложение было невозможно.

Сэм Лианг (Sam Liang), основатель стартапа AISense

Технология распознавания речи — важная часть многих устройств и сервисов. Компании часто публикуют исходники своих разработок для сторонних разработчиков. Например, в январе 2018 года Facebook открыла исходный код системы wav2letter.

Источник: Futurism

Ещё интересное для вас:
Тест: что вы знаете о работе мозга?
Базовый чек-лист по SEO перед сдачей сайта заказчику
Что посмотреть и куда сходить разработчку — ближайшие события