Mozilla представила систему синтеза речи LPCNet
Новости Отредактировано
В LPCNet нейросеть не генерирует сэмплы в режиме реального времени, а предсказывает их. Это повышает эффективность и снижает требования к ресурсам.
1К открытий1К показов
Mozilla рассказала о новой системе синтеза речи LPCNet, которая эффективно переводит текст в речь при уменьшении требовательности к ресурсам. Достигается это за счёт комбинации традиционных методов цифровой обработки сигналов (DSP, digital signal processing) с механизмами синтеза речи на основе рекуррентной нейронной сети.
Принцип работы
Главная проблема современных систем синтеза речи реального времени на основе нейронных сетей — высокая вычислительная сложность. Это не позволяют использовать их на смартфонах и планшетах.
LPCNet использует DSP для LPC-фильтрации (Linear Predictive Coding) и моделирования голосового тракта. Затем, вместо всех выбранных сэмплов, нейросеть получает лишь прогноз каждого последующего. Это освобождает ИИ от моделирования вокального тракта и оставляет ему только корректировку проблем при прогнозировании. Нейросети нужно лишь следить за правильностью прогноза, а не генерировать каждый сэмпл в режиме реального времени.
Возможности LPCNet
Технология может использоваться и в других областях, где нужно улучшить качество голосового сигнала. Например, для передачи речи по низкоскоростным каналам связи, устранения шумов, фильтрации данных и восстановления утерянных при передаче фрагментов речи.
LPCNet написан на языке Си с использованием высокоуровневого фреймворка для построения нейронных сетей Keras. Для работы желательна видеокарта уровня GTX 1080 Ti. Готовые натренированные модели доступны для загрузки, но систему можно обучить и на своих данных. LPCNet распространяется под лицензией BSD.
Система синтеза речи от Mozilla разрабатывается как альтернатива WaveNet от Google. Код WaveNet был открыт для разработчиков в марте 2018 года.
1К открытий1К показов