OpenAI представила сразу две новые нейросети: DALL-E и CLIP

DALL-E отвечает за генерацию изображений на основе описаний, а CLIP — за распознавание изображений, также опираясь при этом на их описание.

Лаборатория OpenAI разработала сразу две новые нейросети: DALL-E и CLIP. Первый отвечает за создание новый изображений, используя в качестве основы простое описание. Второй же определяет объекты и классифицирует их, также опираясь на текстовое описание.

DALL-E

Картинки, которые генерирует DALL-E, «придумываются» нейросетью самостоятельно, пишет TechCrunch. Логика, по которой работает технология, схожа с таковой в GPT-3. В данном случае применяется пара текст-изображение, представленные как последовательность «токенов» из определенного алфавита.

GPT-3 показал нам, что язык можно использовать для обучения большой нейросети выполнять различные задачи по генерации текста. Image GPT показал, что тот же тип нейронной сети можно использовать и для генерации изображений с высокой точностью. Мы расширили эти выводы, чтобы продемонстрировать, что манипулирование визуальными концепциями с помощью языка уже в пределах досягаемости.

DALL-E умеет создавать изображения животных, интерьера и экстерьера, еды и т.д. При этом пользователю лишь достаточно написать что-то типа «фотография бюста Гомера».

CLIP

Представила OpenAI и вторую свою разработку — нейросеть CLIP. Она, в отличие от предыдущей технологии, наоборот занимается распознаванием объектов на изображении. Для этого ИИ обращается к описанию предмета, причём ко всему тексту, а не тегу из одного слова.

Эксперты TechCruch назвали представленные новинки «сказочно интересными и мощными работами». По их мнению, DALL-E и CLIP повторят судьбу прочих проектов OpenAI и превратятся во что-то ещё более удивительное.

Источник: TechCrunch