Китайский стартап запустил бесплатный сервис Otter для расшифровки устной речи

Сервис для конвертирования устной речи Otter вышел на Android и iOS. Приложение расшифровывает голосовые записи и сохраняет их в виде текстовых заметок.

Стартап AISense запустил бесплатный сервис Otter для конвертирования голосовых сообщений в текст. Он предназначен для расшифровки интервью, лекций и личных заметок.

Возможности и ошибки

На основе приложения лежит технология Ambient Voice Intelligence. Она распознает устную речь и в режиме реального времени конвертирует ее в текстовый формат. В ходе преобразования система генерирует ключевые слова, по которым можно найти нужные фрагменты записи.

При первом запуске Otter нужно прочитать вслух показанный на экране текст. Изучив запись, система создает «голосовой отпечаток» пользователя и в последующих записях отделяет его речь от реплик другого человека. Ссылку на аудиозапись с расшифрованным текстом можно отправить коллегам и работать над материалом всей командой.

В работе приложения возникают ошибки. Например, искусственный интеллект плохо расставляет знаки препинания и плохо распознает слова в шумных местах.

Китайский стартап запустил бесплатный сервис Otter для расшифровки устной речи 1

Преимущества Otter над аналогами

Главное преимущество Otter над аналогами — высокая точность распознавания при бесплатности сервиса. Остальные программы для расшифровки аудио либо допускают много ошибок, либо стоят достаточно дорого. Например, представленный в декабре 2017 года сервис Amazon Transcribe расшифровывает 200-минутную запись за 4,80 $. Приложение Otter доступно в App Store и Google Play. Пока оно бесплатно, но в будущем авторы хотят внедрить платную подписку.

Сервис своего времени

Разработкой Otter занимаются выходцы из Google и компании Nuance, занимающейся технологиями распознавания речи. Они представили приложение на выставке Mobile World Congress 2018, объявив, что они выбрали лучшее время для запуска.

Это идеальное время для запуска. Благодаря искусственному интеллекту и машинному обучению, в последние несколько лет качество распознавания голоса заметно повысилось. Годами ранее создать такое приложение было невозможно.

Технология распознавания речи — важная часть многих устройств и сервисов. Компании часто публикуют исходники своих разработок для сторонних разработчиков. Например, в январе 2018 года Facebook открыла исходный код системы wav2letter.

4К открытий4К показов

Также рекомендуем

Hugging Face и ServiceNow создали StarCoder — бесплатный аналог ИИ-помощника Copilot

Hugging Face и ServiceNow выложили в открытый доступ StarCoder — бесплатный помощник программиста, аналог GitHub Copilot.

«Сбер» выпустил GigaChat — свой ответ ChatGPT

«Сбер» выпустил нейросеть GigaChat, которая умеет отвечать на вопросы, генерировать тексты, код и изображения. Прямо как ChatGPT.

Обзор Cody — бесплатного ИИ-помощника для написания кода

IT-блогер Alex Ziskind сделал обзор на Cody — помощника на основе искусственного интеллекта, который пишет код за вас.

Transforming Ad Targeting with Advanced NLP Techniques: A Deep Dive

It’s time to dive deep into the transformative world of advanced NLP in ad targeting — a universe teeming with game-changing strategies.