Китайский стартап запустил бесплатный сервис Otter для расшифровки устной речи

Новости Отредактировано

Сервис для конвертирования устной речи Otter вышел на Android и iOS. Приложение расшифровывает голосовые записи и сохраняет их в виде текстовых заметок.

4К открытий4К показов

Стартап AISense запустил бесплатный сервис Otter для конвертирования голосовых сообщений в текст. Он предназначен для расшифровки интервью, лекций и личных заметок.

Возможности и ошибки

На основе приложения лежит технология Ambient Voice Intelligence. Она распознает устную речь и в режиме реального времени конвертирует ее в текстовый формат. В ходе преобразования система генерирует ключевые слова, по которым можно найти нужные фрагменты записи.

При первом запуске Otter нужно прочитать вслух показанный на экране текст. Изучив запись, система создает «голосовой отпечаток» пользователя и в последующих записях отделяет его речь от реплик другого человека. Ссылку на аудиозапись с расшифрованным текстом можно отправить коллегам и работать над материалом всей командой.

В работе приложения возникают ошибки. Например, искусственный интеллект плохо расставляет знаки препинания и плохо распознает слова в шумных местах.

Китайский стартап запустил бесплатный сервис Otter для расшифровки устной речи 1

Преимущества Otter над аналогами

Главное преимущество Otter над аналогами — высокая точность распознавания при бесплатности сервиса. Остальные программы для расшифровки аудио либо допускают много ошибок, либо стоят достаточно дорого. Например, представленный в декабре 2017 года сервис Amazon Transcribe расшифровывает 200-минутную запись за 4,80 $. Приложение Otter доступно в App Store и Google Play. Пока оно бесплатно, но в будущем авторы хотят внедрить платную подписку.

Сервис своего времени

Разработкой Otter занимаются выходцы из Google и компании Nuance, занимающейся технологиями распознавания речи. Они представили приложение на выставке Mobile World Congress 2018, объявив, что они выбрали лучшее время для запуска.

Это идеальное время для запуска. Благодаря искусственному интеллекту и машинному обучению, в последние несколько лет качество распознавания голоса заметно повысилось. Годами ранее создать такое приложение было невозможно.

Технология распознавания речи — важная часть многих устройств и сервисов. Компании часто публикуют исходники своих разработок для сторонних разработчиков. Например, в январе 2018 года Facebook открыла исходный код системы wav2letter.

4К открытий4К показов

Также рекомендуем

Главный ИИ-ученый *Meta заявил, что общего интеллекта не существует. Даже у людей

Главный ИИ-ученый Meta Ян Лекун заявил, что AGI не существует даже у людей, назвав идею общего интеллекта мифом. Google DeepMind с этим не согласилась

🔥 Бесплатная генерация видео с помощью Sora появилась в Microsoft Bing

Microsoft добавила видеогенератор Sora в Bing — теперь любой пользователь может бесплатно создавать короткие ролики прямо в мобильном приложении

Тим Кук покинет пост главы Apple, его место займет технарь — Bloomberg

Тим Кук готовится покинуть пост главы Apple, его место может занять инженер Джон Тернус — Bloomberg сообщает о смене эпохи в компании

«Код != не программа»: почему опытные разработчики важнее, чем когда-либо

Почему код — это не программа, а лишь её оболочка? Опытный разработчик разобрал, зачем бизнесу нужны опытные разработчики и как ИИ подрывает архитектурную целостность проектов