Facebook разработала датасет XLNI, расширяющий системы понимания естественных языков

Новости Отредактировано

XNLI расширяет датасет MultiNLU и дает развитие системам машинного обучения для распознавания большего количества языков, в том числе редких.

552 открытий578 показов

Facebook объединилась с исследователями из Университета Нью-Йорка для создания набора данных XLNI, который служит для улучшения межъязыковых подходов в понимании естественных языков. Он построен на базе MultiNLU с добавлением 14 новых языков к уже доступному английскому, среди которых редко используемые суахили и урду.

Так для чего нужен XLNI?

Большинство систем распознавания естественного языка требуют для обучения данных, специальным образом отобранных и промаркированных вручную. Такой подход работает, когда дело касается одного языка, но при работе с несколькими затраты слишком велики.

Поэтому ученые из Нью-Йоркского университета решили применить метод межъязыкового понимания. Он заключается в тренировке системы на одном языке, а затем тестировании полученной модели на 112 500 парах слов и предложений на 14 других языках.

XNLI не только расширяет датасет MultiNLU, но и дает развитие системам машинного обучения для распознавания большого количества языков, в том числе редких. Подходы, используемые в разработке, включают в себя как основанный на ИИ машинный перевод, так и параллельную передачу данных для маломощных компьютеров.

Полный текст исследования доступен на странице проекта на Facebook Research.

В конце августа 2018 года команда разработчиков Google Cloud обновила свои API Text-To-Speech для перевода письменной речи в устную и Speech-To-Text для обработки разговора нескольких людей. Кроме того, в тестовом режиме были добавлены аудиопрофили 14 новых языков и диалектов.

552 открытий578 показов

Также рекомендуем

Американец обучил ChatGPT своей работе, после чего его уволили

Американца уволили после того, как он обучил ChatGPT своей работе: компанию теперь заменил ИИ, созданный благодаря его же усилиям

OpenAI готовит три премиум-тарифа с ИИ-агентами — за $2000, $10 000 и $20 000 в месяц

OpenAI готовит ИИ-агентов по $2000 – $20 000 в месяц для аналитики, программирования и науки. Это поможет компании компенсировать многомиллиардные убытки

От университета к дата-сайенс в МТС за год: как я проходил обучение в Школе аналитиков

Максим Коновалов расскажет, как стал Data Scientist в МТС, пройдя школу аналитиков данных МТС и стажировку.

Голосовые роботы, ИИ-агенты и автоматизация входящих звонков: тренды и реалии

Автоматизация голосовых коммуникаций перестала быть чем-то экспериментальным. За последние несколько лет она превратилась в полноценную инфраструктуру, которая уже встроена в...