10 нейросетей для работы с голосом и речью: text-to-speech и наоборот

Аватарка пользователя Дух айтишной эмо школы

Составили подборку из 10 нейросетей для работы с голосом: 5 нейросетей превращают текст в голос, а ещё 5 — голос в текст.

Обложка поста 10 нейросетей для работы с голосом и речью: text-to-speech и наоборот

Составили подборку из 10 нейросетей для работы с голосом: 5 нейросетей превращают текст в голос, а ещё 5 — голос в текст.

  1. Нейросети для преобразования текста в голос
  2. Нейросети для расшифровки аудиозаписей
Пользуетесь ли вы text-to-speech или speech-to-text? 
Да, использую в работе
Да, использую в личных целях 
Можно и так сказать. Только в Телеграме расшифровываю бесконечные голосовые сообщения
Нет

Нейросети для преобразования текста в голос

Список нейросетей, которые озвучивают текст голосами людей и культовых персонажей.

Voicemaker

Один из лучших готовых сервисов для озвучки текста в голос. Дело в том, что у Voicemaker есть много настраиваемых параметров. Можно указать, на какие слова сделать ударение, где проставить паузы, а где ускориться. Также можно изменить скорость чтения текста и высоту голоса.

10 нейросетей для работы с голосом и речью: text-to-speech и наоборот 1
Voicemaker

Кроме того, в сервисе есть около 300 предустановленных мужских и женских голосов в разном тембре.

Есть бесплатный тариф, но с ограничениями: до 250 символов для озвучки за один раз. Платные тарифы начинаются от $5, они же расширяют объем озвучиваемого текста до 10 000 cимволов.

  • Можно проставить ударения, скорость речи, высоту и паузы.
  • Бесплатный тариф — 250 символов.
  • Платные тарифы от $5.

VoxWorker

Похожий на Viocemaker сервис, но с более простыми настройками и ограниченным набором голосов. В бесплатном тарифе можно выбрать 5 голосов, а на платном выбор расширяется до 21. Функционал ограничен расстановкой ударений и пауз, настройкой скорости и тембра голоса.

10 нейросетей для работы с голосом и речью: text-to-speech и наоборот 2
VoxWorker

Зато бесплатный тариф щедрее: можно озвучить два текста в сутки с ограничением в 5000 символов, то есть в сутки доступно 10 000 символов.

В платном тарифе нужно оплачивать токены на использование дополнительных функций. Сумма начинается от 100 рублей.

  • Можно проставить ударения, скорость речи, высоту и паузы.
  • Бесплатный тариф — 10 000 символов.
  • Платные тарифы от 100 рублей.

Zvukogram

В бесплатной версии сервиса доступно 9 голосов, а из настроек доступны только скорость речи и скорость пауз между параграфами, которые проставляются автоматически. Для выходной записи можно выбрать битрейт и расширение файла.

Платные функции включают в себя выбор из 60 голосов: среди них можно выбрать и голоса персонажей типа Деда Мороза и Ленина(!).

10 нейросетей для работы с голосом и речью: text-to-speech и наоборот 3
Zvukogram

Приятный плюс — огромное количество языков для озвучки. В частности, есть русский, украинский, армянский, казахский, грузинский языки. Белорусского почему-то в списке нет.

Бесплатно предоставляются 5 токенов, где 1 токен равен 1000 знаков текста.

  • Можно проставить скорость речи и паузы.
  • Бесплатный тариф — 1000 символов.
  • Платные тарифы от 150 рублей.

Uberduck

Нейросеть, которая работает в английским языком. Русского языка, увы, нет.

Здесь можно настроить голос под свой запрос: выбрать возраст персонажа, пол, акцент — американский, британский, ирландский, шотландский, австралийский или новозеландский.

10 нейросетей для работы с голосом и речью: text-to-speech и наоборот 4
Uberduck

Также можно выбрать стиль, в котором текст будет прочитан: его могут прочитать чопорный рассказчик, персонаж, конферансье или рэпер. Есть настройка настроения от весёлого до напуганного. В общей сложности доступно более 4000 голосов.

Сервис, правда, платный, а стоимость подписки начинается от $96.

  • Можно выбрать возраст, пол, акцент и стиль чтения.
  • Нет русского языка.
  • Бесплатный тариф — нет.
  • Платные тарифы от $96.

SaluteSpeech

Сервис от Сбера с щедрым бесплатным тарифом, который включает до 200 000 символов для озвучки и до 100 минут записи. На выбор предоставляются 7 голосов. Для тестирования в демо-версии предоставляются 200 символов, а настроек тембра, высоты голоса, скорости чтения и прочих нет вообще — они доступны только после регистрации.

10 нейросетей для работы с голосом и речью: text-to-speech и наоборот 5
SaluteSpeech

SaluteSpeech поддерживает SSML (Speech Synthesis Markup Language) — язык разметки синтеза речи. Позволяет настраивать синтез и делает речь ассистентов более естественной.

Нейросеть сама расставляет правильные ударения, ставит букву “ё” там, где это нужно, и переводит сокращения: к примеру, вместо “Кутузовский пр-т” она озвучит текст как “Кутузовский проспект”.

  • Можно проставить ударения, скорость речи, высоту и паузы, но после регистрации.
  • Бесплатный тариф — 200 000 символов.
  • Платные тарифы от 1200 рублей.

Нейросети для расшифровки аудиозаписей

Подборка из 5 нейросетей для транскрибации аудио в текст.

Транскрибация – это процесс преобразования речи из аудиоформата в текстовый формат. Когда вы слушаете аудиозапись и преобразуете высказывания в письменный вид, вы транскрибируете речь.

Voicee

AI-транскрибатор видео или звука в текст в виде Телеграм-бота. Использует распознавание речи (ASR), детекцию голоса (VAD) для определения пауз в речи, диаризация для вычисления характеристик голоса спикера и узнавания его в этой или других записях.

10 нейросетей для работы с голосом и речью: text-to-speech и наоборот 6
Voicee

Также Voicee определяет смысл текста, чтобы разбивать текст на абзацы, определяет пол спикера по голову, использует языковые модели для литературного перевода на русский язык.

Бесплатно расшифровывает файлы длительностью до минуты.

Генерация субтитров, краткий пересказ аудио, перевод на русский, написание краткого поста для соцсетей по аудио стоят от 100 рублей за час. Транскрибация аудио или видео файлов, записей по ссылке YouTube, VK, Rutube, Google Drive или Яндекс Диска и голосовых сообщений — 500 рублей за час.

  • Поддерживает русский язык.
  • Бесплатный тариф расшифрует 1 минуту речи.
  • Платные тарифы от 100 рублей.

Speechmatics

Сервис транскрибации, который поддерживает более 45 языков. На главной работает демо, которое в режиме прямого эфира расшифровывает радио и переводит на выбранный язык.

10 нейросетей для работы с голосом и речью: text-to-speech и наоборот 7
Speechmatics

Есть бесплатный тариф, который позволяет расшифровать 8 часов записи в месяц. Платные тарифы начинаются от $0.30 и позволяют переводить речь в текст в реальном времени.

Использует глубокое обучение и рекуррентные нейронные сети для распознавания аудиоданных.

  • Поддерживает русский язык.
  • Бесплатный тариф расшифрует 8 часов речи.
  • Платные тарифы от $0.30.

Yandex SpeechKit

Сервис транскрибации от Яндекса, который поддерживает 16 языков для озвучки для создания голосовых помощников и автоматизации колл-центров.

В Yandex SpeechKit тоже гибкие тарифы: здесь нужно платить за количество символов. На момент написания статья расшифровка 10 000 символов стоит 13.20 рублей.

10 нейросетей для работы с голосом и речью: text-to-speech и наоборот 8
Yandex SpeechKit

Для транскрибации SpeechKit использует сверточные и рекуррентные нейронные сети.

  • Поддерживает русский язык.
  • Бесплатный тариф расшифрует 10 000 символов.
  • Платные тарифы от 13 рублей.

Google Cloud Speech-to-Text

У транскрибатора от Google есть бесплатный тариф, который позволяет обработать до 60 минут аудио в месяц, при условии, что файлы не длиннее 1 минуты.

10 нейросетей для работы с голосом и речью: text-to-speech и наоборот 9
Google Cloud Speech-to-Text

Количество символов и времени озвучки можно расширить в платных тарифах. Google поступила хитро: у сервиса есть калькулятор тарифов, в котором можно настроить и символы, и длительность выходного файла, поэтому предсказать стоимость сложно. Бесплатно предоставляются токены на $300.

В основе Google Cloud Speech-to-Text лежат глубокое обучение, рекуррентные и сверточные нейронные сети для распознавания и транскрибации речи.

  • Поддерживает русский язык.
  • Бесплатный тариф расшифрует до 60 минут речи.
  • Платные тарифы настраиваются под задачу.

IBM Watson Speech to Text

В бесплатном тарифе предоставляются до 500 минут озвучки в месяц, а количество символов ограничено до 10000 символов на файл. За $0.01 за минуту озвучки IBM предлагает улучшенную транскрибацию.

10 нейросетей для работы с голосом и речью: text-to-speech и наоборот 10
IBM Watson Speech to Text

IBM Watson Speech to Text использует рекуррентные нейронные сети и методы обработки естественного языка.

  • Поддерживает русский язык.
  • Бесплатный тариф расшифрует 500 минут речи.
  • Платные тарифы от $0.01 за минуту.

Заключение

Если вы решитесь попробовать какой-либо из сервисов в подборке, оставьте отзыв в комментариях и расскажите о своём пользовательском опыте — он поможет другим читателям выбрать лучший из вариантов. :)

1244