Google опубликовала набор данных для распознавания речи

Новости Отредактировано

Группа инженеров Google выпустила в свободный доступ набор данных для распознавания речи.

2К открытий2К показов

Любители «сделай сам» или DIY (Do It Yourself) получили новый бонус от Google. Сотрудники компании открыли доступ к набору данных для распознавания речи при помощи машинного обучения. Разработанный двумя командами, TensorFlow и AIY, набор состоит из 65 000 словосочетаний, составленных из 30 слов и предназначенных для обучения различных моделей машинного обучения.

Изначальной идеей проектов AIY являлась поддержка людей, занимающихся DIY и желающих ближе познакомиться с наработками в области ИИ. В планах группы запуск серии гайдов по применению машинного обучения. Первым релизом как раз и стал выпуск Voice Kit. Он содержит инструкцию по сбору смарт-колонки в виде картонного короба, в основе которого лежит Raspberry Pi, а также необходимый для программирования SDK.

Google опубликовала набор данных для распознавания речи 1

По заявлению инженера-программиста Google Пита Уордена, инфраструктура, использованная при создании данных, была в свободном доступе. Поэтому и AIY придерживается таких же принципов свободного распространения, что должно позволить охватить большую аудиторию. Уорден отметил:

Чем аудитория больше, тем больше появится версий продукта, что позволит охватить большее количество языков.

Google верит, что со временем количество акцентов и вариаций языков в активе проекта только увеличится. В отличии от других наборов данных, пользователи могут сами добавлять свой голос в речевые команды. Сайт проекта предлагает внести свой вклад в улучшение работы Voice Kit, просто записав 135 простых слов наподобие «птица», «стоп», «вперёд», последовательности цифр и имена людей.

В данный момент, к сожалению, существующие модели проекта не могут распознать голоса каждого пользователя. Объясняется это тем, что некоторые языковые группы мало представлены в обучающей выборке алгоритмов. Именно отстутствие локальных диалектов или сленгов является причиной непонимания голосовых команд от некоторых групп людей.

Так, сотрудники Стэнфорда установили, что программа для распознавания языков Equilid, обученная на твитах и сленговых словарях, более точно идентифицирует голосовые команды, чем при обучении на книгах и научных текстах, поскольку так она использует тот же язык, что и люди в обычной жизни. Результаты Equilid оказались даже более точными, чем у Compact Language Detector 2 от Google.

2К открытий2К показов

Также рекомендуем

🔥 Android запретит установку любых .apk из интернета. Только от проверенных разработчиков

С 2026 года Android разрешит установку только проверенных приложений: верификация станет обязательной для всех источников, включая APK

Google представила ИИ-модель, которая нашла новое лекарство от рака

ИИ-модель Google C2S-Scale предсказала препарат против рака и подтвердила гипотезу в лаборатории — первый случай в истории биомедицины

Google заблокировала более 2000 российских YouTube-каналов в 2025 году. Что известно

Google удалила 2053 российских YouTube-канала за координированную пропаганду — особенно массово блокировали в апреле 2025 года

🔥 Линейка Google Pixel 10 получила десятки ИИ-улучшений. Мы выбрали 9 самых полезных

Google представила Pixel 10 с чипом Tensor G5 и Gemini Nano: десятки ИИ-функций, включая Magic Cue, Voice Translate и Pixel Journal