Google научила нейросеть распознавать отдельные голоса в толпе

Google представила систему ИИ, анализирующую видео, на котором говорят одновременно несколько человек, и выдающую отдельные аудиодорожки для каждого голоса.

Как это работает?

Нейронная сеть распознает лица и речь, сопоставляет звук с мимикой и выделяет отдельный канал для каждого говорящего. Она умеет выделять и усилять голос, заглушать посторонний шум. Для корректной работы звуковая и видеодорожка должны быть синхронизированы.

Чтобы обучить искусственный интеллект, исследователи собрали коллекцию из 100 000 видеороликов на YouTube и извлекли из них сегменты с речью без помех. К получившимся 2000 часов видео добавили фоновый шум с AudioSet. Сначала сеть училась читать по губам, затем — отсеивать смех, кашель и другие посторонние звуки. Потом её научили различать мимику в диалогах и в том случае, если лицо частично закрыто. В завершение системе показали, как сортировать полученную информацию.

Google собирается использовать функцию в видеочатах Hangouts и Duo: она поможет лучше понимать собеседника, если тот находится в толпе. В слуховых аппаратах система усилит звук голоса, если подключить к ней камеру. Среди других возможностей — применение технологии для точного автоматического составления субтитров. Также возможно использование в методах скрытого наблюдения и подслушивания.

В 2018 году команда Facebook AI Research с группой международных исследователей научила искусственный интеллект объяснять свои действия. В этом им помог тест на уровень развития девятилетнего ребенка: нейросеть идентифицировала объект на фото и объясняла правильность своего выбора.

Источник: блог Google Research

Подобрали два теста для вас:
— А здесь можно применить блокчейн?
Серверы для котиков: выберите лучшее решение для проекта и проверьте себя.