Google запустила инициативу по улучшению технологий компьютерного зрения на мобильных устройствах

Google OVIC

В рамках конференции CVPR2018 Google анонсировала конкурс разработок в области технологий глубинных сетей и компьютерного зрения на смартфонах (OVIC). Созданная в сотрудничестве с университетом Северной Каролины и университетом Пердью, данная инициатива призвана сделать передовые технологии компании по распознаванию изображений в реальном времени открытыми для всех мобильных разработчиков. Исследования в рамках конкурса нацелены на уменьшение задержки при работе приложений и повышение пользовательского опыта.

Стандартизированная метрика

OVIC ориентируется на создание единой системы измерений задержек для точных и эффективных операций на устройствах. Она определяется как количество правильных классификаций изображения за среднее время задержки в 33 мс. До OVIC было сложно реализовать такую метрику, так как исследователи полагались на такие приблизительные показатели, как количество операций умножение-сложение (MAC). Загвоздка заключалась как раз в том, что накопление данных параметров является ресурсоемкой задачей для нейросети, а они сами по себе не показывают полной картины задержек из-за существования различных конфигураций моделей. На графике ниже видно, что устройства с одинаковыми показателями MAC могут иметь большую разницу в задержке, и наоборот:

Latency Graph

Поэтому OVIC предлагает прямое снижение задержки вместо ограничения числа операций умножение-сложение как главного параметра.

Доступная всем вычислительная платформа

Ранее точное и корректное вычисление параметров задержки предполагало использование оборудования, доступного только крупным университетам и компаниям. В связи с этим OVIC предлагает платформу для вычислений, включающую компоненты, которые созданы специально для широкого применения исследовательским сообществом:

  • TOCO-компилятор, оптимизирующий модели TensorFlow для эффективного вывода;
  • движок вывода TensorFlow Lite для развертки на мобильных устройствах;
  • SDK, оценивающий производительность на любом Android-устройстве;
  • инструмент для оценки задержек на некоторых телефонах Pixel от Google (доступен зарегистрированным участникам).

С использованием этих инструментов у разработчиков пропадает необходимость оптимизировать ядра, докупать специальное измерительное оборудование или создавать фреймворки под заданные условия. Нужно только владеть опытом обучения систем компьютерного зрения с помощью TensorFlow.

Прием заявок на конкурс осуществляется до 15 июня 2018 года.

Развитию технологий машинного обучения и компьютерного зрения уделяется много внимания со стороны гигантов индустрии. Например, в середине апреля 2018 года Google обновила свои DIY-наборы с камерами, оснащенными технологиями компьютерного зрения, которые призваны популяризировать развивающиеся технологии среди учащихся и разработчиков.

Источник: блог Google Research

Ещё интересное для вас:
— Тест «Насколько хорошо вы разбираетесь в C#?»
— Блиц-тест «Настоящий ли ты фронтендер?»
— Меньше готовить, больше кодить: обзор питания с доставкой на дом.