Microsoft открыла доступ к набору данных для обучения компьютеров письменной речи

Microsoft хочет помочь машинами научиться разговаривать, открыв доступ к новому набору данных для обучения. 

Эти данные, названные Microsoft Machine Reading Comprehension (MS MARCO), являются набором из 100 тысяч англоязычных запросов и соответствующих ответов. Предполагается, что набор поможет людям создавать системы, основанные на ИИ, которые будут способны понимать человеческую письменную речь.

Запросы в MS MARCO основаны на анонимных вопросах, заданных поисковому движку Bing и виртуальному помощнику Cortana. Ответы же опираются на информацию, найденную в сети и проверенную людьми. Запросы и ответы созданы для совместного использования с моделями глубинного обучения.

Прямо сейчас набор данных доступен бесплатно для некоммерческого использования.

Те, кто хочет узнать о MS MARCO больше, могут ознакомиться с докладом от команды разработчиков Microsoft. Кроме того, эта команда готовит испытание, которое будет оценивать модели, натренированные при помощи MS MARCO.

Источник: ComputerWorld