Нейросеть научилась создавать портрет человека по текстовому описанию

Разработчик Анимеш Карневар (Animesh Karnewar) создал нейросеть T2F, которая генерирует портреты на основе текстового описания лица человека. По словам автора, на создание алгоритма его вдохновило любопытство: он всегда хотел узнать, как герои книг выглядели бы в реальной жизни. Исходный код проекта доступен на GitHub.

T2F

Набор данных и архитектура

Карневар использовал набор данных Face2Text, который содержит 400 изображений с текстовым описанием каждого из них и дополнительной информацией. Например, некоторые из фотографий могут иметь пометку «Человек на картинке, вероятно, преступник». В основе F2T лежат архитектуры StackGAN и StackGAN++ для синтеза изображений из текста.

Принцип работы

Нейросеть с долгой краткосрочной памятью кодирует текстовое описание в суммарный вектор, одна часть которого представляет собой случайный гауссовский шум. Генеративно-состязательная сеть (GAN) использует его для поэтапного увеличения пространственного изображения. В результате получается максимально возможно четкая картинка.

T2F

Аналог T2F

В январе 2018 года Microsoft представила «внимательную» GAN, которая который учитывает важные детали в описании, оценивает каждое слово и рисует изображение на их основе.

Будущее

Карневар считает, что T2F могут использовать правоохранительные органы для создания портретов преступников и жертв. Он продолжит развитие проекта и попробует обучить нейросеть на наборах данных Flicker8K и Coco.

В конце апреля 2018 года группа ученых из Microsoft и Киотского университета представила нейросеть, способная генерировать рифмы на основе изображений с подписями.

Источник: Medium