Google опубликовала набор данных для распознавания речи

Группа инженеров Google выпустила в свободный доступ набор данных для распознавания речи.

Любители «сделай сам» или DIY (Do It Yourself) получили новый бонус от Google. Сотрудники компании открыли доступ к набору данных для распознавания речи при помощи машинного обучения. Разработанный двумя командами, TensorFlow и AIY, набор состоит из 65 000 словосочетаний, составленных из 30 слов и предназначенных для обучения различных моделей машинного обучения.

Изначальной идеей проектов AIY являлась поддержка людей, занимающихся DIY и желающих ближе познакомиться с наработками в области ИИ. В планах группы запуск серии гайдов по применению машинного обучения. Первым релизом как раз и стал выпуск Voice Kit. Он содержит инструкцию по сбору смарт-колонки в виде картонного короба, в основе которого лежит Raspberry Pi, а также необходимый для программирования SDK.

Google опубликовала набор данных для распознавания речи 1

По заявлению инженера-программиста Google Пита Уордена, инфраструктура, использованная при создании данных, была в свободном доступе. Поэтому и AIY придерживается таких же принципов свободного распространения, что должно позволить охватить большую аудиторию. Уорден отметил:

Чем аудитория больше, тем больше появится версий продукта, что позволит охватить большее количество языков.

Google верит, что со временем количество акцентов и вариаций языков в активе проекта только увеличится. В отличии от других наборов данных, пользователи могут сами добавлять свой голос в речевые команды. Сайт проекта предлагает внести свой вклад в улучшение работы Voice Kit, просто записав 135 простых слов наподобие «птица», «стоп», «вперёд», последовательности цифр и имена людей.

В данный момент, к сожалению, существующие модели проекта не могут распознать голоса каждого пользователя. Объясняется это тем, что некоторые языковые группы мало представлены в обучающей выборке алгоритмов. Именно отстутствие локальных диалектов или сленгов является причиной непонимания голосовых команд от некоторых групп людей.

Так, сотрудники Стэнфорда установили, что программа для распознавания языков Equilid, обученная на твитах и сленговых словарях, более точно идентифицирует голосовые команды, чем при обучении на книгах и научных текстах, поскольку так она использует тот же язык, что и люди в обычной жизни. Результаты Equilid оказались даже более точными, чем у Compact Language Detector 2 от Google.