Facebook опубликовала исходники системы распознавания речи wav2letter

Новости

Код состоит из модулей к библиотеке глубинного машинного обучения Torch, написанных на языке Lua. Система wav2letter работает на базе сверточной нейронной сети.

2К открытий2К показов

Команда исследователей из Facebook AI Research (FAIR) опубликовала на GitHub исходный код собственной системы распознавания речи, wav2letter. Он состоит из модулей к библиотеке глубинного машинного обучения Torch, написанных на языке Lua. Для обработки звука подключается библиотека Libsndfile, а для цифровой обработки сигналов – FFTW. Система работает на базе свёрточной нейронной сети.

wav2letter использует посимвольный метод разбора, поэтому для обучения не нужен фонетический словарь, только запись речи и текстовая расшифровка. На основании списка слов и языковой модели декодировщик сам строит акустическую модель.

Для желающих опробовать систему в действии разработчики выпустили готовую модель, натренированную для английского языка.

Проверка wav2letter на тестовом наборе LibriSpeech показала уровень ошибок 4,8% для чистой речи и 14,5% для запутанной. По сравнению с этим человек допускает 5,83% ошибок, Mozilla Voice – 6,5%, Google Speech – 6,64%, а Apple Dictation – 14,24%.

2К открытий2К показов

Также рекомендуем

Edge AI: как работают нейросети на устройствах с ограниченными ресурсами

Что такое Edge AI. Показываем основные принципы и инструменты для работы с Edge AI. Рассматриваем пошаговую инструкцию и основные нюансы ✔ Tproger

Когда ИИ — не главный. Как финтех учится совмещать алгоритмы и людей: опыт краудплатформы

В статье разберем принципы и преимущества работы скоринг-модели на примере JetLend, и основные задачи, которые с ее помощью решает компания.

ChatGPT o1 иногда начинает «думать» на китайском, несмотря на язык запроса

OpenAI ChatGPT o1 иногда «думает» на китайском из-за особенностей обучения и оптимизации модели, вызвав вопросы у пользователей

Почему нейросети забывают старое, когда учатся новому? Как ученые пытаются это решить

О катастрофическом забывании: почему модели теряют навыки и что делать разработчикам