Google запустила инициативу по улучшению технологий компьютерного зрения на мобильных устройствах

Новости Отредактировано

В ходе ежегодной конференции CVPR2018, Google представила конкурс по улучшению технологий распознавания объектов в реальном времени на мобильных устройствах (OVIC). Цель инициативы — уменьшить задержки в вычислениях и качественно повысить пользовательский опыт.

335 открытий348 показов

В рамках конференции CVPR2018 Google анонсировала конкурс разработок в области технологий глубинных сетей и компьютерного зрения на смартфонах (OVIC). Созданная в сотрудничестве с университетом Северной Каролины и университетом Пердью, данная инициатива призвана сделать передовые технологии компании по распознаванию изображений в реальном времени открытыми для всех мобильных разработчиков. Исследования в рамках конкурса нацелены на уменьшение задержки при работе приложений и повышение пользовательского опыта.

Стандартизированная метрика

OVIC ориентируется на создание единой системы измерений задержек для точных и эффективных операций на устройствах. Она определяется как количество правильных классификаций изображения за среднее время задержки в 33 мс. До OVIC было сложно реализовать такую метрику, так как исследователи полагались на такие приблизительные показатели, как количество операций умножение-сложение (MAC). Загвоздка заключалась как раз в том, что накопление данных параметров является ресурсоемкой задачей для нейросети, а они сами по себе не показывают полной картины задержек из-за существования различных конфигураций моделей. На графике ниже видно, что устройства с одинаковыми показателями MAC могут иметь большую разницу в задержке, и наоборот:

Поэтому OVIC предлагает прямое снижение задержки вместо ограничения числа операций умножение-сложение как главного параметра.

Доступная всем вычислительная платформа

Ранее точное и корректное вычисление параметров задержки предполагало использование оборудования, доступного только крупным университетам и компаниям. В связи с этим OVIC предлагает платформу для вычислений, включающую компоненты, которые созданы специально для широкого применения исследовательским сообществом:

TOCO-компилятор, оптимизирующий модели TensorFlow для эффективного вывода;
движок вывода TensorFlow Lite для развертки на мобильных устройствах;
SDK, оценивающий производительность на любом Android-устройстве;
инструмент для оценки задержек на некоторых телефонах Pixel от Google (доступен зарегистрированным участникам).

С использованием этих инструментов у разработчиков пропадает необходимость оптимизировать ядра, докупать специальное измерительное оборудование или создавать фреймворки под заданные условия. Нужно только владеть опытом обучения систем компьютерного зрения с помощью TensorFlow.

Прием заявок на конкурс осуществляется до 15 июня 2018 года.

Развитию технологий машинного обучения и компьютерного зрения уделяется много внимания со стороны гигантов индустрии. Например, в середине апреля 2018 года Google обновила свои DIY-наборы с камерами, оснащенными технологиями компьютерного зрения, которые призваны популяризировать развивающиеся технологии среди учащихся и разработчиков.

335 открытий348 показов

Также рекомендуем

Обзор Cody — бесплатного ИИ-помощника для написания кода

IT-блогер Alex Ziskind сделал обзор на Cody — помощника на основе искусственного интеллекта, который пишет код за вас.

В Android со свежим обновлением появились новые функции. На что стоит обратить внимание

Google выпустила майское обновление для актуальных версий Android. Оно принесло немало новых и, что важно, интересных функций

Chrome-расширение с 600 000 пользователей оказалось мошенническим

Исследователи нашли более 10 Chrome-расширений, которые оказались вредоносными, собирая данные пользователей и участвуя в мошенничестве с партнёрскими программами

Нейросеть Claude — замена ChatGPT?

Нейросеть Claude — языковая модель, как ChatGPT. Она подходит для всех профессий и для жизни, и её считают конкурентом ChatGPT. Несмотря на то, что функции схожи, у Claude есть значительные преимущества. Claude отвечает на вопросы, пишет тексты, генерит идеи, решает математические задачи и помогает с программированием.