Обработка изображений и компьютерное зрение

Вы когда-нибудь задумывались, как ваш мобильный телефон использует распознавание лиц для разблокировки? Или как различные модели глубокого обучения используются для обнаружения аномалий на изображении? Или как работают фильтры Instagram, чтобы манипулировать полученным изображением?

В этом посте мы разберем, как работают обработка изображений и компьютерное зрение, и как они используются вместе с глубоким обучением для создания инновационных и сложных решений для многих повседневных проблем. Чтобы лучше понять суть этой статьи, я рекомендую вам прочитать мою статью об искусственном интеллекте и машинном обучении.

Введение

Обработка изображений, как следует из самого слова, — это применение различных алгоритмов и методов для манипулирования или изменения изображения, чтобы сделать его пригодным для решения поставленной задачи и использования. Почти каждый из нас использовал обработку изображений для той или иной задачи, например, когда мы используем портретный режим для съемки селфи, мы используем обработку изображений для размытия фона.

Компьютерное зрение, с другой стороны, является одним из приложений искусственного интеллекта и использует алгоритмы и методы для выявления закономерностей в данных изображения. Чтобы связать его с обработкой изображений, мы можем снова взять пример использования портретного режима. В то время как обработка изображений используется для размытия фона, искусственный интеллект используется для идентификации или распознавания фона, и все решение, разработанное комбинацией этих двух методов, будет решением компьютерного зрения.

Ответом на вопрос «Как наши мобильные устройства узнают, какие объекты нужно размыть, а какие нет?» является искусственный интеллект или глубокое обучение. Ответ на вопрос «Как наш мобильный размывает объекты?» — это обработка изображений. А ответ на вопрос «Как наш мобильный реализует портретный режим?» — это компьютерное зрение.


Диаграмма Венна для представления взаимосвязи между искусственным интеллектом, обработкой изображений и компьютерным зрением

Обработка изображений очень часто используется для предварительной обработки изображения перед реализацией на нем алгоритмов компьютерного зрения. По мере того, как расширяются сферы применения искусственного интеллекта, параллельно развиваются области компьютерного зрения и обработки изображений. Эта природа очень интуитивно понятна, поскольку, когда расширяются сферы применения чего-либо, методы предварительной обработки также становятся востребованными.

Обработка изображений

Представьте, что вам поставлена задача создать фильтр Instagram, который распознает пользователя (человека), делает все на заднем плане размытым, а также делает фон изображения более темным. Пока предположим, что у нас уже есть модель ИИ, которая распознает пользователя на изображении и выдает его координаты. Теперь как мы можем решить эту проблему?

Структура изображения

При разработке подобных ИИ-решений необходимо помнить одну вещь: в большинстве случаев при использовании компьютерного зрения модели не обучаются на цветных изображениях, а сначала преобразуются в полутоновые (черно-белые), а затем используются. Это связано с тем, что цветные изображения гораздо сложнее обрабатывать, и на обучение модели уходит гораздо больше времени. Давайте разберемся в причинах этого.

Изображения хранятся в виде матрицы (двумерные массивы/векторы), когда дело доходит до их обработки. В случае цветных изображений каждый элемент матрицы содержит 3 числа, каждое из которых представляет собой концентрацию красного, зеленого и синего цветов по шкале от 0 до 255. С другой стороны, каждый элемент полутоновых изображений содержит только одно число в диапазоне от 0 до 225, где 0 представляет черный цвет, а 225 — белый. Эти элементы называются пикселями, а эти числа — цветовыми каналами. Таким образом, для обработки трех цветовых каналов требуется гораздо больше вычислительной мощности и времени, а поскольку этого можно легко избежать, используя полутоновые изображения, большинство моделей, существующих сегодня, принимают на вход только полутоновые изображения.

Алгоритмы и функции обработки изображений

Возвращаясь к нашей проблеме, первым шагом будет преобразование входного изображения из цветного в полутоновое. Мы можем сделать это, используя предварительно созданный алгоритм/технику и отправив его на вход нашей модели ИИ. Модель обработает это изображение и вернет координаты обнаруженного пользователя, а мы сможем сохранить их для дальнейшего использования. Теперь мы создаем функцию размытия и функцию увеличения темноты.

Существует множество популярных алгоритмов, которые мы используем для размытия фона, один из самых известных — гауссово размытие, подробнее о нем можно прочитать в Википедии. После того как мы выбрали алгоритм и создали функцию, нам нужно применить его на изображении. Но как мы можем оставить обнаруженного пользователя вне нашей обработки? Мы будем использовать то, что называется маской. Маска закрывает или заменяет все изображение и предотвращает его обработку, а когда остальное изображение будет обработано, мы сможем удалить маску.

Получив размытое изображение, переходим к затемнению фона, для чего снова используем ту же маску и затемняем изображение, уменьшая концентрацию каждого цветового канала всех пикселей. После этого мы можем удалить маску и вывести наше свежее обработанное изображение.

В этом сегменте все стратегии или методы, которые мы обсуждали, являются частью обработки изображений. Компьютерное зрение также включает в себя искусственный интеллект, который был использован для создания самой модели, определяющей пользователя по изображению. Разработка модели снова включает в себя много обработки изображений и использование алгоритмов глубокого обучения.

Заключение

Компьютерное зрение не ограничивается только использованием обработки изображений вместе с искусственным интеллектом, но также может включать обработку сигналов. Это одна из наиболее развивающихся областей с многочисленными приложениями, которые внедряются и используются, пока я пишу эту статью. Для инновационных умов нет ничего, что могло бы ограничить их от поиска все новых и новых применений для КВ. Особенно сейчас, когда применение стало разнообразным в таких областях, как здравоохранение, космические (астрономические) исследования, борьба с преступностью и так далее.

Надеюсь, вам понравилось читать эту статью. Чтобы следить за новыми статьями, следите за мной на Dev.to или подписывайтесь на рассылку новостей на моем официальном блоге Thinkfeed.

Оцените статью
devanswers.ru
Добавить комментарий