Нейросеть научилась создавать портрет человека по текстовому описанию
Новости
Алгоритм T2F использует набор данных Face2Text из 400 изображений, а также архитектуру StackGAN и StackGAN++ на генеративно-состязательных нейросетях.
Разработчик Анимеш Карневар (Animesh Karnewar) создал нейросеть T2F, которая генерирует портреты на основе текстового описания лица человека. По словам автора, на создание алгоритма его вдохновило любопытство: он всегда хотел узнать, как герои книг выглядели бы в реальной жизни. Исходный код проекта доступен на GitHub.
Набор данных и архитектура
Карневар использовал набор данных Face2Text, который содержит 400 изображений с текстовым описанием каждого из них и дополнительной информацией. Например, некоторые из фотографий могут иметь пометку «Человек на картинке, вероятно, преступник». В основе F2T лежат архитектуры StackGAN и StackGAN++ для синтеза изображений из текста.
Принцип работы
Нейросеть с долгой краткосрочной памятью кодирует текстовое описание в суммарный вектор, одна часть которого представляет собой случайный гауссовский шум. Генеративно-состязательная сеть (GAN) использует его для поэтапного увеличения пространственного изображения. В результате получается максимально возможно четкая картинка.
Аналог T2F
В январе 2018 года Microsoft представила «внимательную» GAN, которая который учитывает важные детали в описании, оценивает каждое слово и рисует изображение на их основе.
Будущее
Карневар считает, что T2F могут использовать правоохранительные органы для создания портретов преступников и жертв. Он продолжит развитие проекта и попробует обучить нейросеть на наборах данных Flicker8K и Coco.
В конце апреля 2018 года группа ученых из Microsoft и Киотского университета представила нейросеть, способная генерировать рифмы на основе изображений с подписями.
3К открытий3К показов