Facebook опубликовала исходники системы распознавания речи wav2letter

Код состоит из модулей к библиотеке глубинного машинного обучения Torch, написанных на языке Lua. Система wav2letter работает на базе сверточной нейронной сети.

Команда исследователей из Facebook AI Research (FAIR) опубликовала на GitHub исходный код собственной системы распознавания речи, wav2letter. Он состоит из модулей к библиотеке глубинного машинного обучения Torch, написанных на языке Lua. Для обработки звука подключается библиотека Libsndfile, а для цифровой обработки сигналов – FFTW. Система работает на базе свёрточной нейронной сети.

wav2letter использует посимвольный метод разбора, поэтому для обучения не нужен фонетический словарь, только запись речи и текстовая расшифровка. На основании списка слов и языковой модели декодировщик сам строит акустическую модель.

Для желающих опробовать систему в действии разработчики выпустили готовую модель, натренированную для английского языка.

Проверка wav2letter на тестовом наборе LibriSpeech показала уровень ошибок 4,8% для чистой речи и 14,5% для запутанной. По сравнению с этим человек допускает 5,83% ошибок, Mozilla Voice – 6,5%, Google Speech – 6,64%, а Apple Dictation – 14,24%.

2К открытий2К показов

Также рекомендуем

Как «Строки» подбирают контент, который понравится читателям

Рассказали, какие рекомендательные системы используют и как их улучшают в онлайн-сервисе для читающих людей от МТС.

Легендарный DOOM запустили на терминале. Но для его работы нужна банковская карта

Энтузиаст портировал легендарную DOOM 1993 года на банковский терминал. Причем неотъемлимая часть геймплея завязана на использовании карты

5 признаков, что вам пора в Data Science

Хотите в Data Science, но не знаете, какое направление выбрать? Собрали признаки, которые помогут определиться и выбрать профессию.

Нюансы обучения онлайн на факультете Искусственного интеллекта

Советы выпускника онлайн-университета для тех, кто хочет извлечь из учебы как можно больше и дойти до конца.