Google открыла исходный код нейросети для обработки портретных фото и историй

machine-learning-camera

12 марта Google пополнила число open source проектов и представила свою модель семантической сегментации изображения DeepLab-v3+. Эта технология, построенная на основе сверточной нейронной сети, стоит за режимом портретной съемки в Pixel 2 и Pixel 2 XL, а также служит для изменения фона видео в «Историях» YouTube в реальном времени.

Как это работает?

Задача сегментации — присвоить смысловые (семантические) метки каждому пикселю изображения для определения, к какой категории они относятся: «дорога», «небо», «человек» и т.д. Алгоритм позволяет понять, входит ли пиксель в передний план или является частью фона.

Например, в портретном режиме Pixel 2 и Pixel 2 XL модель сегментации предназначена для создания эффекта глубины резкости. Для его достижения используются семантические метки. Чтобы их найти, необходимо определить контуры объектов, что предъявляет гораздо более строгие требования к точности локализации, чем к другим задачам распознавания визуальных объектов, таким как классификация уровня изображения или ограничение на уровне блоков.

segment

Добиться требуемого качества картинки стало возможным благодаря интегрированному в DeepLab-v3 модулю декодера, оптимизирующему эффективность, особенно по границам объекта.

Многие из проектов Google в сфере машинного обучения также становятся открытыми для программистов, работающих с искусственным интеллектом. Напомним, в августе 2017 года компания опубликовала библиотеку Deeplearn.js для машинного обучения в браузере.

Источник: 9to5Google

Ещё интересное для вас:
Тест: чьё это рабочее место? Угадываем айтишников по их столам
Тест: что вы знаете о работе мозга?
Тест: какой язык программирования вам стоит выбрать для изучения?