Microsoft обучила ИИ разговаривать по-человечески
Новости
Команда исследователей ИИ из Microsoft использовала синтез речи с помощью нейронных сетей для создания компьютерной речи, имитирующей человеческую.
929 открытий935 показов
Исследователи из Microsoft сделали записи компьютерного голоса, имитирующего человеческую речь. Для преодоления трудностей традиционной модели они использовали нейронные сети для синтеза речи. Microsoft обещает обеспечить поддержку 49 языков и возможность создания уникальных голосов для нужд компаний в ближайшем будущем.
Просодика
Синтез речи с помощью нейронных сетей предполагает сравнение ударения и протяжённости (т. н. просодика) единиц речи говорящего, а также их синтез в компьютерный голос. В системах традиционного синтеза речи просодику разделяют на акустический и лингвистический анализ, которыми управляют различные модели. В результате речь получается шумной и невнятной. Представители Microsoft утверждают, что в модели нейронного синтеза два этапа объединены в один, поэтому голос звучит похожим на реальный.
Разработчики убеждены, что синтез речи с помощью нейронных сетей сделает более естественным общение с виртуальными собеседниками и помощниками. Более того, это даст возможность конвертировать электронные книги в аудиокниги и позволит изменить озвучивание встроенных в автомобили навигаторов.
Вычислительные мощности Azure доступны для использования в реальном времени, и за это отвечает служба Azure Kubernetes. Одновременное применение нейронного синтеза речи вместе с традиционным говорят о расширении и повышении доступности сервиса. Пока в системе имеются женский голос по имени Jessa и мужской с именем Guy.
Microsoft соревнуется в технологиях распознавания и синтеза речи с Google, которая обновила свои сервисы в конце августа 2018 года. Команда Google Cloud объявила о выпуске стабильного API для синтеза речи Cloud Text-to-Speech с экспериментальной функцией аудиопрофилей и поддержкой нескольких новых языков. В то же время сервис для расшифровки аудио Cloud Speech-to-Text научился распознавать разных спикеров и самостоятельно определять язык записи из нескольких возможных.
929 открытий935 показов