Google AI представила Fluid Annotation, «умный» интерфейс для разметки изображений

Fluid Annotation от Google

Команда Google AI разработала основанный на машинном обучении интерфейс, который сокращает время разметки объектов на фотографиях в три раза. Это позволит быстрее создавать большие корпуса изображений для систем компьютерного зрения. Разработчики создали демонстрационную веб-версию интерфейса, где каждый пользователь может попробовать очертить границы объектов на нескольких фотографиях.

Проблема ручной разметки

Системы компьютерного зрения учатся распознавать объекты на изображениях, где эти объекты уже очерчены и подписаны. Разметка одной фотографии для набора COCO+Stuff занимает у человека около 19 минут, а всего датасета — 53 тысячи часов. Это налагает серьёзные ограничения на развитие распознающих моделей.

Подробнее о Fluid Annotation

В первую очередь нейросеть с архитектурой Mask-RCNN разбивает изображение на сегменты по грубым контурам объектов. Их получается больше тысячи, и каждому присваивается название и оценка доверия. Человек начинает работать с сегментами, получившими наиболее высокую оценку, после чего может:

  • изменять подписи сегментов с помощью выпадающего меню;
  • добавлять сегменты для объектов, которые модель не смогла распознать;
  • удалять существующие сегменты;
  • изменять карту глубины для сегментов, перекрывающих друг друга.

fluid annotation segmentsТаким образом, интерфейс позволяет человеку корректировать разметку объектов, а не выполнять работу с нуля.

Команда Google AI представит посвящённую Fluid Annotation статью 25 октября 2018 года на ACM Multimedia Conference 2018 в секции Brave New Ideas.

Помимо проблемы аннотации изображений, исследователи в области машинного обучения решают вопрос наполнения датасетов. Качество распознавания объекта зависит от того, насколько часто интеллектуальная система «встречала» его во время обучения. Летом 2018 года команда Google AI представила алгоритм, который генерирует уникальные изображения на основе существующих: с помощью обрезки, изменения цвета или отражения. Это позволяет увеличить размер датасета, не затрачивая время и силы на поиск новых изображений.

Source: блог Google AI

Подобрали три теста для вас:
— А здесь можно применить блокчейн?
Серверы для котиков: выберите лучшее решение для проекта и проверьте себя.
Сложный тест по C# — проверьте свои знания.

Также рекомендуем: