Шпаргалка по OpenCV — Python
Что такое OpenCV?
Библиотека компьютерного зрения и машинного обучения с открытым исходным кодом. В неё входят более 2500 алгоритмов, в которых есть как классические, так и современные алгоритмы для компьютерного зрения и машинного обучения. Эта библиотека имеет интерфейсы на различных языках, среди которых есть Python (в этой статье используем его), Java, C++ и Matlab.
Содержание
- Установка.
- Импорт и просмотр изображения.
- Обрезка.
- Изменение размера.
- Поворот.
- Градация серого и порог.
- Размытие/сглаживание.
- Рисование прямоугольников.
- Рисование линий.
- Текст на изображении.
- Распознавание лиц.
- Contours — распознавание объектов.
- Сохранение изображения.
Импорт и просмотр изображения
Примечание При чтении способом выше изображение находится в цветовом пространстве не RGB (как все привыкли), а BGR. Возможно, в начале это не так важно, но как только вы начнёте работать с цветом — стоит знать об этой особенности. Есть 2 пути решения:
- Поменять местами 1-й канал (R — красный) с 3-м каналом (B — синий), и тогда красный цвет будет
(0,0,255)
, а не(255,0,0)
. - Поменять цветовое пространство на RGB:rgb_image = cv2.cvtColor(image, cv2.COLOR_BGR2RGB)И тогда в коде работать уже не с image, а с rgb_image.
Примечание Чтобы закрыть окно, в котором отображается изображение, нажмите любую клавишу. Если использовать кнопку закрытия окна, можно наткнуться на подвисания.
На протяжении статьи для вывода изображений будет использоваться следующий код:
Кадрирование
Где image[10:500, 500:2000]
— это image[y:y + высота, x:x + ширина]
.
Изменение размера
Эта функция учитывает соотношение сторон оригинального изображения. Другие функции изменения размера изображений можно увидеть здесь.
Поворот
image.shape
возвращает высоту, ширину и каналы. M
— матрица поворота — поворачивает изображение на 180 градусов вокруг центра. -ve
— это угол поворота изображения по часовой стрелке, а +ve
, соответственно, против часовой.
Перевод в градации серого и в чёрно-белое изображение по порогу
gray_image
— это одноканальная версия изображения.
Функция threshold
возвращает изображение, в котором все пиксели, которые темнее (меньше) 127 заменены на 0, а все, которые ярче (больше) 127, — на 255.
Для ясности другой пример:
Здесь всё, что темнее, чем 150, заменяется на 10, а всё, что ярче, — на 200.
Остальные threshold-функции описаны здесь.
Размытие/сглаживание
Функция GaussianBlur
(размытие по Гауссу) принимает 3 параметра:
- Исходное изображение.
- Кортеж из 2 положительных нечётных чисел. Чем больше числа, тем больше сила сглаживания.
- sigmaX и sigmaY. Если эти параметры оставить равными 0, то их значение будет рассчитано автоматически.
Больше про размытие здесь.
Рисование прямоугольников
Эта функция принимает 5 параметров:
- Само изображение.
- Координата верхнего левого угла
(x1, y1)
. - Координата нижнего правого угла
(x2, y2)
. - Цвет прямоугольника (GBR/RGB в зависимости от выбранной цветовой модели).
- Толщина линии прямоугольника.
Рисование линий
Функция line
принимает 5 параметров:
- Само изображение, на котором рисуется линия.
- Координата первой точки
(x1, y1)
. - Координата второй точки
(x2, y2)
. - Цвет линии (GBR/RGB в зависимости от выбранной цветовой модели).
- Толщина линии.
Текст на изображении
Функция putText
принимает 7 параметров:
- Непосредственно изображение.
- Текст для изображения.
- Координата нижнего левого угла начала текста
(x, y)
. - Используемый шрифт.
- Размер шрифта.
- Цвет текста (GBR/RGB в зависимости от выбранной цветовой модели).
- Толщина линий букв.
Распознавание лиц
На этот раз без пёсиков.
detectMultiScale
— общая функция для распознавания как лиц, так и объектов. Чтобы функция искала именно лица, мы передаём ей соответствующий каскад.
Функция detectMultiScale
принимает 4 параметра:
- Обрабатываемое изображение в градации серого.
- Параметр
scaleFactor
. Некоторые лица могут быть больше других, поскольку находятся ближе, чем остальные. Этот параметр компенсирует перспективу. - Алгоритм распознавания использует скользящее окно во время распознавания объектов. Параметр
minNeighbors
определяет количество объектов вокруг лица. То есть чем больше значение этого параметра, тем больше аналогичных объектов необходимо алгоритму, чтобы он определил текущий объект, как лицо. Слишком маленькое значение увеличит количество ложных срабатываний, а слишком большое сделает алгоритм более требовательным. minSize
— непосредственно размер этих областей.
Contours — распознавание объектов
Распознавание объектов производится с помощью цветовой сегментации изображения. Для этого есть две функции: cv2.findContours
и cv2.drawContours
.
В этой статье детально описано обнаружение объектов с помощью цветовой сегментации. Всё, что вам нужно для неё, находится там.
Сохранение изображения
Заключение
OpenCV — отличная библиотека с лёгкими алгоритмами, которые могут использоваться в 3D-рендере, продвинутом редактировании изображений и видео, отслеживании и идентификации объектов и людей на видео, поиске идентичных изображений из набора и для много-много чего ещё.
Эта библиотека очень важна для тех, кто разрабатывает проекты, связанные с машинным обучением в области изображений.
247К открытий253К показов