Microsoft обучила ИИ разговаривать по-человечески

Новости

Команда исследователей ИИ из Microsoft использовала синтез речи с помощью нейронных сетей для создания компьютерной речи, имитирующей человеческую.

939 открытий963 показов

Исследователи из Microsoft сделали записи компьютерного голоса, имитирующего человеческую речь. Для преодоления трудностей традиционной модели они использовали нейронные сети для синтеза речи. Microsoft обещает обеспечить поддержку 49 языков и возможность создания уникальных голосов для нужд компаний в ближайшем будущем.

Просодика

Синтез речи с помощью нейронных сетей предполагает сравнение ударения и протяжённости (т. н. просодика) единиц речи говорящего, а также их синтез в компьютерный голос. В системах традиционного синтеза речи просодику разделяют на акустический и лингвистический анализ, которыми управляют различные модели. В результате речь получается шумной и невнятной. Представители Microsoft утверждают, что в модели нейронного синтеза два этапа объединены в один, поэтому голос звучит похожим на реальный.

Разработчики убеждены, что синтез речи с помощью нейронных сетей сделает более естественным общение с виртуальными собеседниками и помощниками. Более того, это даст возможность конвертировать электронные книги в аудиокниги и позволит изменить озвучивание встроенных в автомобили навигаторов.

Microsoft обучила ИИ разговаривать по-человечески 1

Вычислительные мощности Azure доступны для использования в реальном времени, и за это отвечает служба Azure Kubernetes. Одновременное применение нейронного синтеза речи вместе с традиционным говорят о расширении и повышении доступности сервиса. Пока в системе имеются женский голос по имени Jessa и мужской с именем Guy.

Microsoft соревнуется в технологиях распознавания и синтеза речи с Google, которая обновила свои сервисы в конце августа 2018 года. Команда Google Cloud объявила о выпуске стабильного API для синтеза речи Cloud Text-to-Speech с экспериментальной функцией аудиопрофилей и поддержкой нескольких новых языков. В то же время сервис для расшифровки аудио Cloud Speech-to-Text научился распознавать разных спикеров и самостоятельно определять язык записи из нескольких возможных.

939 открытий963 показов

Также рекомендуем

«Больше не элита»: как разработчики теряют власть и превращаются в обычных наемных рабочих

Разработчики больше не элита: дефицит исчез, слежка и переработки — норма. Доктороу призывает к солидарности и борьбе за права

Программист с 40-летним стажем проверил, заменит ли его ChatGPT — и сделал неожиданный вывод

Программист с 40-летним опытом проверил ChatGPT и другие ИИ в разработке: ИИ ускоряет работу и вдохновляет, но не заменяет опыт инженера

Разработчик изучал систему рекомендаций Netflix месяцами. Вот что скрывается внутри

Разработчик изучил рекомендательную систему Netflix: как алгоритмы и инфраструктура персонализируют контент и удерживают зрителей

Microsoft представила Visual Studio 2026: 5000 исправлений и 300 новых функций. Разбираемся, что нового

Microsoft выпустила Visual Studio 2026 и .NET 10: 5000 исправлений, 300 функций, новый Fluent UI, интеграция Copilot и рост скорости