Игра Яндекс Практикума
Игра Яндекс Практикума
Игра Яндекс Практикума

Китайский стартап запустил бесплатный сервис Otter для расшифровки устной речи

Новости Отредактировано

Сервис для конвертирования устной речи Otter вышел на Android и iOS. Приложение расшифровывает голосовые записи и сохраняет их в виде текстовых заметок.

4К открытий4К показов

Стартап AISense запустил бесплатный сервис Otter для конвертирования голосовых сообщений в текст. Он предназначен для расшифровки интервью, лекций и личных заметок.

Возможности и ошибки

На основе приложения лежит технология Ambient Voice Intelligence. Она распознает устную речь и в режиме реального времени конвертирует ее в текстовый формат. В ходе преобразования система генерирует ключевые слова, по которым можно найти нужные фрагменты записи.

При первом запуске Otter нужно прочитать вслух показанный на экране текст. Изучив запись, система создает «голосовой отпечаток» пользователя и в последующих записях отделяет его речь от реплик другого человека. Ссылку на аудиозапись с расшифрованным текстом можно отправить коллегам и работать над материалом всей командой.

В работе приложения возникают ошибки. Например, искусственный интеллект плохо расставляет знаки препинания и плохо распознает слова в шумных местах.

Китайский стартап запустил бесплатный сервис Otter для расшифровки устной речи 1

Преимущества Otter над аналогами

Главное преимущество Otter над аналогами — высокая точность распознавания при бесплатности сервиса. Остальные программы для расшифровки аудио либо допускают много ошибок, либо стоят достаточно дорого. Например, представленный в декабре 2017 года сервис Amazon Transcribe расшифровывает 200-минутную запись за 4,80 $. Приложение Otter доступно в App Store и Google Play. Пока оно бесплатно, но в будущем авторы хотят внедрить платную подписку.

Сервис своего времени

Разработкой Otter занимаются выходцы из Google и компании Nuance, занимающейся технологиями распознавания речи. Они представили приложение на выставке Mobile World Congress 2018, объявив, что они выбрали лучшее время для запуска.

Это идеальное время для запуска. Благодаря искусственному интеллекту и машинному обучению, в последние несколько лет качество распознавания голоса заметно повысилось. Годами ранее создать такое приложение было невозможно.

Технология распознавания речи — важная часть многих устройств и сервисов. Компании часто публикуют исходники своих разработок для сторонних разработчиков. Например, в январе 2018 года Facebook открыла исходный код системы wav2letter.

Следите за новыми постами
Следите за новыми постами по любимым темам
4К открытий4К показов