Исследователи Google научились вычленять голос в толпе, используя ИИ

VoiceFilter от Google

Разработчики из компании Google научились использовать ИИ для выделения конкретного голоса в толпе. Для этого они обучили две отдельные нейросети: одна распознаёт говорящего, другая сравнивает звуковые спектрограммы. Вместе эти сети уменьшили количество ошибочных распознаваний (Word error rate, WER).

Новая разработка, названная VoiceFilter, основывается на PixelPlayer — системе, способной вырезать отдельные музыкальные инструменты из видеоролика. Также продукт имеет сходство с системой, создающей спектрограммы загруженных песен. Такая была создана в Университете Суррея в 2015 году.

Как работает VoiceFilter?

Программа VoiceFilter построена на модели LSTM — алгоритме машинного обучения, объединяющего память и входы для повышения точности прогноза, и нейронной сети с одним слоем LSTM. Принцип обучения заключается в том, что ИИ минимизирует разницу между спектрограммой «грязного» звука толпы и целевой спектрограммой, полученной из чистой записи голоса.

Для обучения использовались два образца: первый состоял из почти 34 миллионов анонимных англоязычных голосовых запросов, а второй — open source библиотек LibriSpeech, VoxCeleb и VoxCeleb2. Тесты показали, что VoiceFilter снизил частоту ошибок в распознавании слов с 55,9 % до 23,4 %.

Работают в этой области и другие компании. Так в мае 2018 года Qualcomm рассказала о новой системе распознавания речи, которая работает без подключения к Интернету. А Mozilla в ноябре 2017 года запустила систему распознавания речи на движке DeepSpeech и опубликовала базу голосовых сообщений, собранных в рамках проекта CommonVoice.

via Venture Beat
Source: arXiv.org