Mozilla представила систему синтеза речи LPCNet

Новости Отредактировано

В LPCNet нейросеть не генерирует сэмплы в режиме реального времени, а предсказывает их. Это повышает эффективность и снижает требования к ресурсам.

1К открытий1К показов

Mozilla рассказала о новой системе синтеза речи LPCNet, которая эффективно переводит текст в речь при уменьшении требовательности к ресурсам. Достигается это за счёт комбинации традиционных методов цифровой обработки сигналов (DSP, digital signal processing) с механизмами синтеза речи на основе рекуррентной нейронной сети.

Принцип работы

Главная проблема современных систем синтеза речи реального времени на основе нейронных сетей — высокая вычислительная сложность. Это не позволяют использовать их на смартфонах и планшетах.

LPCNet использует DSP для LPC-фильтрации (Linear Predictive Coding) и моделирования голосового тракта. Затем, вместо всех выбранных сэмплов, нейросеть получает лишь прогноз каждого последующего. Это освобождает ИИ от моделирования вокального тракта и оставляет ему только корректировку проблем при прогнозировании. Нейросети нужно лишь следить за правильностью прогноза, а не генерировать каждый сэмпл в режиме реального времени.

Возможности LPCNet

Технология может использоваться и в других областях, где нужно улучшить качество голосового сигнала. Например, для передачи речи по низкоскоростным каналам связи, устранения шумов, фильтрации данных и восстановления утерянных при передаче фрагментов речи.

LPCNet написан на языке Си с использованием высокоуровневого фреймворка для построения нейронных сетей Keras. Для работы желательна видеокарта уровня GTX 1080 Ti. Готовые натренированные модели доступны для загрузки, но систему можно обучить и на своих данных. LPCNet распространяется под лицензией BSD.

Система синтеза речи от Mozilla разрабатывается как альтернатива WaveNet от Google. Код WaveNet был открыт для разработчиков в марте 2018 года.

1К открытий1К показов

Также рекомендуем

JetBrains закрыла ИИ IDE Fleet. Вместо него выйдет новый продукт для ИИ-агентов

JetBrains закрыла IDE Fleet и прекращает поддержку проекта. Вместо редактора компания готовит новый продукт для ИИ-агентной разработки

Главные AI-модели декабря 2025: что нового на Hugging Face

Собрали 45 самых популярных AI-моделей декабря 2025 года с Hugging Face — от генерации изображений за секунду до агентов, которые играют в видеоигры. Разобрали по категориям — языковые модели, кодинг, генерация картинок и видео, 3D, аудио и агенты.

🔥 OpenAI выкупила стартап дизайнера iPhone и iPod для создания своего первого ИИ-девайса

OpenAI купила стартап Джони Айва за $6,5 млрд — команда дизайнера iPhone создаст первый ИИ-девайс компании, релиз ожидается в 2026 году

Скрутка и накрутка опыта: работает ли это в айтишке

Вместе с Акимом Саввиным, тимлидом команды бэкэнда в ВСК, разбираемся, зачем айтишники скручивают или накручивают опыт и дает ли это какие-то преимущества.