Написать пост

Facebook опубликовала исходники системы распознавания речи wav2letter

Аватар Екатерина Никитина

Код состоит из модулей к библиотеке глубинного машинного обучения Torch, написанных на языке Lua. Система wav2letter работает на базе сверточной нейронной сети.

Команда исследователей из Facebook AI Research (FAIR) опубликовала на GitHub исходный код собственной системы распознавания речи, wav2letter. Он состоит из модулей к библиотеке глубинного машинного обучения Torch, написанных на языке Lua. Для обработки звука подключается библиотека Libsndfile, а для цифровой обработки сигналов – FFTW. Система работает на базе свёрточной нейронной сети.

wav2letter использует посимвольный метод разбора, поэтому для обучения не нужен фонетический словарь, только запись речи и текстовая расшифровка. На основании списка слов и языковой модели декодировщик сам строит акустическую модель.

Для желающих опробовать систему в действии разработчики выпустили готовую модель, натренированную для английского языка.

Проверка wav2letter на тестовом наборе LibriSpeech показала уровень ошибок 4,8% для чистой речи и 14,5% для запутанной. По сравнению с этим человек допускает 5,83% ошибок, Mozilla Voice – 6,5%, Google Speech – 6,64%, а Apple Dictation – 14,24%.

Следите за новыми постами
Следите за новыми постами по любимым темам
2К открытий2К показов