Facebook разработала датасет XLNI, расширяющий системы понимания естественных языков
Новости Отредактировано
XNLI расширяет датасет MultiNLU и дает развитие системам машинного обучения для распознавания большего количества языков, в том числе редких.
549 открытий556 показов
Facebook объединилась с исследователями из Университета Нью-Йорка для создания набора данных XLNI, который служит для улучшения межъязыковых подходов в понимании естественных языков. Он построен на базе MultiNLU с добавлением 14 новых языков к уже доступному английскому, среди которых редко используемые суахили и урду.
Так для чего нужен XLNI?
Большинство систем распознавания естественного языка требуют для обучения данных, специальным образом отобранных и промаркированных вручную. Такой подход работает, когда дело касается одного языка, но при работе с несколькими затраты слишком велики.
Поэтому ученые из Нью-Йоркского университета решили применить метод межъязыкового понимания. Он заключается в тренировке системы на одном языке, а затем тестировании полученной модели на 112 500 парах слов и предложений на 14 других языках.
XNLI не только расширяет датасет MultiNLU, но и дает развитие системам машинного обучения для распознавания большого количества языков, в том числе редких. Подходы, используемые в разработке, включают в себя как основанный на ИИ машинный перевод, так и параллельную передачу данных для маломощных компьютеров.
Полный текст исследования доступен на странице проекта на Facebook Research.
В конце августа 2018 года команда разработчиков Google Cloud обновила свои API Text-To-Speech для перевода письменной речи в устную и Speech-To-Text для обработки разговора нескольких людей. Кроме того, в тестовом режиме были добавлены аудиопрофили 14 новых языков и диалектов.
549 открытий556 показов