Разработчики из MIT представили алгоритм, который на основе голоса человека воссоздаёт его лицо

Новости

Проверка на качество показала, что модель хорошо справляется с определением пола, однако пока не способна правильно оценить возраст с точностью до 10 лет.

1К открытий1К показов

Учёные из MIT создали ML-модель Speech2Face, которая по спектрограмме речи человека генерирует его портрет. Она распознаёт пол, возраст и, по акценту, этническую принадлежность.

Разработчики из MIT представили алгоритм, который на основе голоса человека воссоздаёт его лицо 1

Как работает?

Работа модели опирается на данные из набора AVSpeech с короткими роликами. Аудио- и видеодорожки в них заранее разделены. Всего в наборе миллион таких файлов, среди них встречается около ста тысяч человек.

Получив на вход короткий видеоролик, одна часть алгоритма переделывает на основе кадров лицо человека, чтобы оно было в анфас, с нейтральным выражением. Другая часть алгоритма работает с аудиодорожкой. Она воссоздаёт спектрограмму, распознаёт голос и с помощью параллельной нейросети генерирует портрет.

Проверка на качество показала, что модель хорошо справляется с определением пола, однако пока не способна правильно оценить возраст с точностью до 10 лет. Кроме того, обнаружился расовый перекос: лучше всего алгоритм справлялся с отрисовкой лиц людей европейского или азиатского происхождения. Как говорят исследователи, это из-за неравномерного распределения рас в обучающей выборке.

1К открытий1К показов

Также рекомендуем

Глава Coinbase уволил разработчиков, отказавшихся использовать ИИ. Вот почему

Глава Coinbase Брайан Армстронг уволил разработчиков, отказавшихся освоить Copilot и Cursor, подчеркнув «AI-first» политику компании

🔥 Линейка Google Pixel 10 получила десятки ИИ-улучшений. Мы выбрали 9 самых полезных

Google представила Pixel 10 с чипом Tensor G5 и Gemini Nano: десятки ИИ-функций, включая Magic Cue, Voice Translate и Pixel Journal

Локальные нейросети без VPN: быстрые решения для России

Обзор российских локальных нейросетей, работающих без VPN: Study AI, Савви, ruGPT, Chad AI и BotHub. Сравниваем возможности, сценарии использования и тарифы для разработчиков, бизнеса и учебы.

JetBrains закрыла ИИ IDE Fleet. Вместо него выйдет новый продукт для ИИ-агентов

JetBrains закрыла IDE Fleet и прекращает поддержку проекта. Вместо редактора компания готовит новый продукт для ИИ-агентной разработки