Facebook разработала датасет XLNI, расширяющий системы понимания естественных языков

XNLI расширяет датасет MultiNLU и дает развитие системам машинного обучения для распознавания большего количества языков, в том числе редких.

Facebook объединилась с исследователями из Университета Нью-Йорка для создания набора данных XLNI, который служит для улучшения межъязыковых подходов в понимании естественных языков. Он построен на базе MultiNLU с добавлением 14 новых языков к уже доступному английскому, среди которых редко используемые суахили и урду.

Так для чего нужен XLNI?

Большинство систем распознавания естественного языка требуют для обучения данных, специальным образом отобранных и промаркированных вручную. Такой подход работает, когда дело касается одного языка, но при работе с несколькими затраты слишком велики.

Поэтому ученые из Нью-Йоркского университета решили применить метод межъязыкового понимания. Он заключается в тренировке системы на одном языке, а затем тестировании полученной модели на 112 500 парах слов и предложений на 14 других языках.

XNLI не только расширяет датасет MultiNLU, но и дает развитие системам машинного обучения для распознавания большого количества языков, в том числе редких. Подходы, используемые в разработке, включают в себя как основанный на ИИ машинный перевод, так и параллельную передачу данных для маломощных компьютеров.

Полный текст исследования доступен на странице проекта на Facebook Research.

В конце августа 2018 года команда разработчиков Google Cloud обновила свои API Text-To-Speech для перевода письменной речи в устную и Speech-To-Text для обработки разговора нескольких людей. Кроме того, в тестовом режиме были добавлены аудиопрофили 14 новых языков и диалектов.

547 открытий547 показов

Также рекомендуем

Дайджест Python #11: шаурмичная на Python и AI-плагины для разработки

Лучшие статьи о Python с 1 по 15 июня: как готовить шаурму с Python, как создать чатбот на ruT5 и какие есть AI-плагины для разработки.

Нейросеть Google Gemini: почему она лучше ChatGPT и как её использовать

Google представила нейросеть Gemini, которая круче ChatGPT. Рассказываем, что это за нейросеть, что она умеет и как ее использовать в России.

Развитие нейросетей и ИИ в Google: почему не всё так просто

Разобрались, как Google развивает решения на основе нейросетей и искусственного интеллекта, и с какими проблемами сталкивается.

Inflection AI создали чат-бота Pi — он похож на Саманту из фильма «Она»

Стартап под названием Inflection AI, который поддерживают компании LinkedIn и DeepMind, представил миру чат-бота Pi.