Facebook опубликовала исходники системы распознавания речи wav2letter

Команда исследователей из Facebook AI Research (FAIR) опубликовала на GitHub исходный код собственной системы распознавания речи, wav2letter. Он состоит из модулей к библиотеке глубинного машинного обучения Torch, написанных на языке Lua. Для обработки звука подключается библиотека Libsndfile, а для цифровой обработки сигналов – FFTW. Система работает на базе свёрточной нейронной сети.

wav2letter использует посимвольный метод разбора, поэтому для обучения не нужен фонетический словарь, только запись речи и текстовая расшифровка. На основании списка слов и языковой модели декодировщик сам строит акустическую модель.

Для желающих опробовать систему в действии разработчики выпустили готовую модель, натренированную для английского языка.

Проверка wav2letter на тестовом наборе LibriSpeech показала уровень ошибок 4,8% для чистой речи и 14,5% для запутанной. По сравнению с этим человек допускает 5,83% ошибок, Mozilla Voice – 6,5%, Google Speech – 6,64%, а Apple Dictation – 14,24%.

Источник: OpenNet

Ещё интересное для вас:
Серверы для котиков: выберите лучшее решение для проекта и проверьте себя.
— Как расширить функциональность ПО на продакшене, ничего не сломав.
Сложный тест по C# — проверьте свои знания.