Mozilla выпустила систему распознавания речи с открытым кодом

Компания Mozilla запустила систему распознавания речи на движке DeepSpeech и опубликовала базу голосовых сообщений, собранных в рамках проекта CommonVoice. В понимании речи модель приблизилась к человеку.

Компания Mozilla объявила о первом выпуске системы по распознаванию речи с открытым исходным кодом. Модель построена на движке DeepSpeech с использованием одноименной архитектуры Baidu и платформы машинного обучения TensorFlow от Google.

Запущенный ранее проект Common Voice привлек более 20 000 добровольцев, которыми было записано примерно 400 000 сообщений общей продолжительностью около 500 часов. В результате была сформирована большая база голосовых фраз с различным речевым поведением. Собранный материал позволил обучить модель понимать речь близко к человеческим показателям. Так, по заявлению Mozilla, коэффициент ошибок в словах в тестовом массиве данных LibriSpeech составил 6,5 %. Для сравнения, уровень ошибок Google Speech составляет 6.64 %, Apple Dictation — 14.24 %, а человек ошибается в среднем в 5,83 % случаев.

Помимо модели по распознаванию речи, в набор входят модули для Python и NodeJS, упрощающие интеграцию системы в программные продукты, а также инструменты для командной строки. Отличительными особенностями DeepSpeech являются низкая требовательность к системным ресурсам (возможен запуск даже на Raspberry Pi) и высокое качество распознавания при посторонних шумах.

Как заявляет Mozilla, идея проекта заключается в том, чтобы параллельно с новой моделью распознавания речи «создать речевой корпус, с открытым исходным кодом, достаточно большой для использования в крупных проектах». В настоящее время работа ведется только по распознаванию английского языка, но уже в первой половине 2018 года планируется формировать базу с примерами произношений для других языков.

Источник: Mozilla