Google научила нейросеть распознавать отдельные голоса в толпе

Name: Google научила нейросеть распознавать отдельные голоса в толпе
Uploaded: 2018-04-15T15:38:53.000Z
Description: Искусственный интеллект анализирует видео, на котором говорят одновременно несколько человек и выдает отдельные аудиодорожки для каждого голоса.

Новости

Искусственный интеллект анализирует видео, на котором говорят одновременно несколько человек и выдает отдельные аудиодорожки для каждого голоса.

1К открытий1К показов

Google представила систему ИИ, анализирующую видео, на котором говорят одновременно несколько человек, и выдающую отдельные аудиодорожки для каждого голоса.

Как это работает?

Нейронная сеть распознает лица и речь, сопоставляет звук с мимикой и выделяет отдельный канал для каждого говорящего. Она умеет выделять и усилять голос, заглушать посторонний шум. Для корректной работы звуковая и видеодорожка должны быть синхронизированы.

Чтобы обучить искусственный интеллект, исследователи собрали коллекцию из 100 000 видеороликов на YouTube и извлекли из них сегменты с речью без помех. К получившимся 2000 часов видео добавили фоновый шум с AudioSet. Сначала сеть училась читать по губам, затем — отсеивать смех, кашель и другие посторонние звуки. Потом её научили различать мимику в диалогах и в том случае, если лицо частично закрыто. В завершение системе показали, как сортировать полученную информацию.

Google собирается использовать функцию в видеочатах Hangouts и Duo: она поможет лучше понимать собеседника, если тот находится в толпе. В слуховых аппаратах система усилит звук голоса, если подключить к ней камеру. Среди других возможностей — применение технологии для точного автоматического составления субтитров. Также возможно использование в методах скрытого наблюдения и подслушивания.

В 2018 году команда Facebook AI Research с группой международных исследователей научила искусственный интеллект объяснять свои действия. В этом им помог тест на уровень развития девятилетнего ребенка: нейросеть идентифицировала объект на фото и объясняла правильность своего выбора.

1К открытий1К показов

Также рекомендуем

YouTube может вернуться в Россию — но только на новых условиях

YouTube может возобновить работу в России, если выполнит ряд условий: оплатит штрафы, зарегистрирует юрлицо и восстановит доступ к аккаунтам СМИ. Власти настаивают на соблюдении законов и цифровом суверенитете.

Один пост о микроволновке разоблачил страхи вокруг ИИ лучше, чем 100 колонок

Разработчик сравнил ИИ с микроволновкой: пост-сатира точнее колонок высмеял технохайп и слепую веру в замену людей машинами

GPT-6 от OpenAI: память, персонализация и искупление ошибок GPT-5

Сэм Альтман анонсировал GPT-6: ключевые особенности — память, ускоренный выпуск, тонкая настройка характера модели и внимание к приватности. Альтман признал ошибки запуска GPT-5 и делится взглядом на будущее ИИ.

Топ ИИ-инструментов для транскрибации митингов, видео и всех аудио форматов

Подборка сервисов для транскрибации аудио и видео в текст. Сравниваем точность, скорость работы, тарифы и фишки каждой платформы, чтобы упростить конспекты встреч, обработку интервью и работу с контентом.