Разработчики Facebook создали датасет персонажей для диалоговых нейросетей

персонажи для чат-ботов

Исследователи из Facebook создали подборку учебных данных для повышения эффективности обучения нейросетей, специализирующихся на общении с живыми пользователями. Она включила в себя 5 миллионов персонажей и 700 миллионов диалогов.

диалоги для чат-ботов на нейросетях

Создание набора персонажей

В основу датасета разработчики заложили подборку PERSONA-CHAT, разработанную совместно специалистами Facebook и учеными Монреальского института алгоритмов обучения. В первую очередь в глаза бросается увеличение объема данных на три порядка — базовый датасет содержал всего около тысячи личностей. Но исследователи обращают внимание на более важный аспект. Контент PERSONA-CHAT был создан искусственно, а новый сет сформирован на базе диалогов пользователей Reddit.

Диалоговая нейросеть, прошедшая обучение на новом наборе данных, ведет более увлекательные диалоги, чем сети, не имевшие доступа к коллекции личностей. Более того, обучение систем на базе персонажей происходит быстрее.

Выбор подходящего набора данных для обучения искусственного интеллекта — одна из ключевых задач для разработчиков. От него зависит точность и производительность создаваемого ПО. В сентябре 2018 года Google в тестовом режиме запустила специальный инструмент для поиска подходящих подборок.

via TechXplore
Source: arXiv.org

Подобрали три теста для вас:
— А здесь можно применить блокчейн?
Серверы для котиков: выберите лучшее решение для проекта и проверьте себя.
Сложный тест по C# — проверьте свои знания.

Также рекомендуем: