Разработчики из MIT представили алгоритм, который на основе голоса человека воссоздаёт его лицо

Проверка на качество показала, что модель хорошо справляется с определением пола, однако пока не способна правильно оценить возраст с точностью до 10 лет.

Учёные из MIT создали ML-модель Speech2Face, которая по спектрограмме речи человека генерирует его портрет. Она распознаёт пол, возраст и, по акценту, этническую принадлежность.

Разработчики из MIT представили алгоритм, который на основе голоса человека воссоздаёт его лицо 1

Как работает?

Работа модели опирается на данные из набора AVSpeech с короткими роликами. Аудио- и видеодорожки в них заранее разделены. Всего в наборе миллион таких файлов, среди них встречается около ста тысяч человек.

Получив на вход короткий видеоролик, одна часть алгоритма переделывает на основе кадров лицо человека, чтобы оно было в анфас, с нейтральным выражением. Другая часть алгоритма работает с аудиодорожкой. Она воссоздаёт спектрограмму, распознаёт голос и с помощью параллельной нейросети генерирует портрет.

Проверка на качество показала, что модель хорошо справляется с определением пола, однако пока не способна правильно оценить возраст с точностью до 10 лет. Кроме того, обнаружился расовый перекос: лучше всего алгоритм справлялся с отрисовкой лиц людей европейского или азиатского происхождения. Как говорят исследователи, это из-за неравномерного распределения рас в обучающей выборке.