Google открыла исходный код нейросети для обработки портретных фото и историй

Google опубликовала исходный код нейросети DeepLab-v3+. Она используется в смартфонах Pixel 2 и Pixel 2 XL для эффективной сегментации фотоизображений.

12 марта Google пополнила число open source проектов и представила свою модель семантической сегментации изображения DeepLab-v3+. Эта технология, построенная на основе сверточной нейронной сети, стоит за режимом портретной съемки в Pixel 2 и Pixel 2 XL, а также служит для изменения фона видео в «Историях» YouTube в реальном времени.

Как это работает?

Задача сегментации — присвоить смысловые (семантические) метки каждому пикселю изображения для определения, к какой категории они относятся: «дорога», «небо», «человек» и т.д. Алгоритм позволяет понять, входит ли пиксель в передний план или является частью фона.

Например, в портретном режиме Pixel 2 и Pixel 2 XL модель сегментации предназначена для создания эффекта глубины резкости. Для его достижения используются семантические метки. Чтобы их найти, необходимо определить контуры объектов, что предъявляет гораздо более строгие требования к точности локализации, чем к другим задачам распознавания визуальных объектов, таким как классификация уровня изображения или ограничение на уровне блоков.

Google открыла исходный код нейросети для обработки портретных фото и историй 1

Добиться требуемого качества картинки стало возможным благодаря интегрированному в DeepLab-v3 модулю декодера, оптимизирующему эффективность, особенно по границам объекта.

Многие из проектов Google в сфере машинного обучения также становятся открытыми для программистов, работающих с искусственным интеллектом. Напомним, в августе 2017 года компания опубликовала библиотеку Deeplearn.js для машинного обучения в браузере.

3К открытий3К показов

Также рекомендуем

Как «Строки» подбирают контент, который понравится читателям

Рассказали, какие рекомендательные системы используют и как их улучшают в онлайн-сервисе для читающих людей от МТС.

Как использовать клиентские данные для машинного обучения

Рассказываем, как правильно подобрать данные для машинного обучения, какие данные подойдут и как использовать данные клиентов для ML.

Из цикла ETL: Python для аналитики ad hoc из BigQuery

Рассказали, как создавать запросы с помощью BigQuery API – библиотеки, упрощающей обращение с хранилищем, как записывать и читать данные.

Создать Chrome OS и остаться неизвестным: история Джеффа Нельсона

Разобрались, кто такой Джефф Нельсон, как он придумал и создал Chrome OS и почему он всё-таки остался неизвестным разработчиком.