Сегментация изображения разделяет изображение на несколько областей или фрагментов для отдельного изучения.
Обнаружение объектов позволяет определить конкретный объект на изображении. Продвинутое обнаружение объектов распознает множество объектов на одном изображении: футбольное поле, игрок нападения, игрок защиты, мяч и так далее. Эти модели используют координаты X, Y для создания ограничивающего поля и определяют все, что находится внутри поля.
Распознавание лиц - это продвинутый тип обнаружения объектов, который не только распознает человеческое лицо на изображении, но и идентифицирует конкретного человека.
Обнаружение краев - это метод, используемый для определения внешнего края объекта или ландшафта, чтобы лучше определить, что находится на изображении.
Обнаружение образов - это процесс распознавания повторяющихся форм, цветов и других визуальных признаков на изображениях.
Классификация изображений группирует изображения по различным категориям.
Сопоставление признаков - это разновидность обнаружения образов, при котором сходство изображений помогает их классифицировать.
В простых приложениях компьютерного зрения может использоваться только один из этих методов, но более сложные приложения, такие как
компьютерное зрение для самоуправляемых автомобилей, используют несколько методов для достижения своей цели.
Для того чтобы машина распознавала визуальные объекты, ее необходимо обучить на сотнях тысяч примеров. Например, вы хотите, чтобы кто-то мог отличать автомобили от велосипедов. Как бы вы описали эту задачу человеку?
Обычно вы скажете, что у велосипеда два колеса, а у машины - четыре. Или что у велосипеда есть педали, а у машины нет. В машинном обучении это называется разработкой признаков.
Однако, как вы уже могли заметить, этот метод далек от совершенства. Некоторые велосипеды имеют три или четыре колеса, а некоторые автомобили - только два. Кроме того, существуют мотоциклы и мопеды, которые могут быть приняты за велосипеды. Как алгоритм будет классифицировать их?
Когда вы создаете все более сложные системы (например, программное обеспечение для распознавания лиц), случаи неправильной классификации становятся все более частыми. Просто указать цвет глаз или волос каждого человека не получится: инженеру ML придется провести сотни измерений, таких как пространство между глазами, пространство между глазами и уголками рта и т.д., чтобы иметь возможность описать лицо человека.
Более того, точность такой модели оставляет желать лучшего: измените освещение, выражение лица или ракурс, и вам придется начинать измерения заново.
Вот несколько распространенных препятствий на пути решения задач компьютерного зрения.
Для компьютерного зрения очень важно собрать знания о реальном мире, которые представляют объекты при различном освещении. Фильтр может заставить мяч выглядеть синим или желтым, в то время как на самом деле он остается белым. Красный объект под красной лампой становится почти невидимым.
Если на изображении много шума, компьютерному зрению трудно
распознавать объекты. Шум в компьютерном зрении - это когда отдельные
пиксели на изображении выглядят ярче или темнее, чем должны быть. Например, видеокамеры, фиксирующие нарушения на дороге, гораздо менее эффективны, если на улице идет дождь или снег.
Важно иметь фотографии объекта с нескольких ракурсов. В противном случае компьютер не сможет распознать его при изменении ракурса.
Когда на изображении более одного объекта, они могут накладываться друг на друга. Таким образом, некоторые характеристики объектов могут оставаться скрытыми, что еще больше затрудняет их распознавание машиной.
Вещи, относящиеся к одной и той же категории, могут выглядеть совершенно по-разному. Например, существует множество типов ламп, но алгоритм должен успешно распознать и тумбочку, и потолочный светильник.
Предметы из разных категорий иногда могут выглядеть одинаково. Например, вы наверняка встречали людей, которые напоминали вам знаменитость на фотографиях, сделанных под определенным углом, но в реальной жизни - не очень. Случаи неправильного распознавания распространены в резюме. Например, щенков самоеда на некоторых фотографиях легко принять за маленьких белых медвежат.
Практически невозможно продумать все эти случаи и предотвратить их путем разработки функций. Именно поэтому сегодня в компьютерном зрении почти полностью доминируют глубокие искусственные нейронные сети.
Революционные нейронные сети очень эффективны при извлечении признаков и позволяют инженерам экономить время на ручной работе. VGG-16 и VGG-19 - одни из самых известных архитектур CNN. Действительно, глубокое обучение требует большого количества примеров, но это не проблема: ежегодно в интернет загружается около 657 миллиардов фотографий [9].
Компьютерное зрение помогает людям в самых разных областях. Но возможности его развития безграничны. Вот некоторые области, которые еще предстоит усовершенствовать и развить.
Понимание сцены. CV хорошо справляется с поиском и идентификацией
объектов. Однако он испытывает трудности с пониманием контекста сцены,
особенно если он нетривиальный. Посмотрите, например, на это изображение. Как вы думаете, что они делают.
Вы сразу поймете, что это дети, надевшие на головы картонные коробки. Это не какое-то постмодернистское искусство, которое пытается разоблачить бессмысленность школьного образования. Эти дети наблюдают за солнечным затмением. Но если у вас нет этого контекста, вы можете никогда не понять, что происходит. Искусственный интеллект в подавляющем большинстве случаев все еще чувствует себя так. Чтобы улучшить ситуацию, нам нужно было бы изобрести общий искусственный интеллект (то есть ИИ, чьи возможности решения проблем более или менее равны человеческим и могут применяться повсеместно), но мы очень далеки от этого.
Вопросы конфиденциальности. Компьютерное зрение имеет много общего с конфиденциальностью, поскольку системы распознавания лиц используются правительствами разных стран для обеспечения национальной безопасности. Камеры с искусственным интеллектом, установленные в московском метро, помогают ловить преступников. Тем временем китайские власти составляют профиль уйгурских лиц (мусульманское этническое меньшинство) и выделяют их для отслеживания и заключения в тюрьму. Когда распознавание лиц повсюду, все, что вы делаете, может стать предметом политики и позора. Специалистам по этике ИИ еще предстоит выяснить последствия вездесущего распознавания лиц для общественного благосостояния.
Do'stlaringiz bilan baham: |