Facebook опубликовала исходники системы распознавания речи wav2letter

Facebook открыла код wav2letter

Команда исследователей из Facebook AI Research (FAIR) опубликовала на GitHub исходный код собственной системы распознавания речи, wav2letter. Он состоит из модулей к библиотеке глубинного машинного обучения Torch, написанных на языке Lua. Для обработки звука подключается библиотека Libsndfile, а для цифровой обработки сигналов – FFTW. Система работает на базе свёрточной нейронной сети.

wav2letter использует посимвольный метод разбора, поэтому для обучения не нужен фонетический словарь, только запись речи и текстовая расшифровка. На основании списка слов и языковой модели декодировщик сам строит акустическую модель.

Для желающих опробовать систему в действии разработчики выпустили готовую модель, натренированную для английского языка.

Проверка wav2letter на тестовом наборе LibriSpeech показала уровень ошибок 4,8% для чистой речи и 14,5% для запутанной. По сравнению с этим человек допускает 5,83% ошибок, Mozilla Voice – 6,5%, Google Speech – 6,64%, а Apple Dictation – 14,24%.

Источник: OpenNet

Ещё интересное для вас:
— Биты, байты, Ада Лавлейс — тест на знание околоIT.
— Level Up — события и курсы, на которых можно поднять свой уровень.
— Работа мечты — лучшие IT-вакансии для вас.