Разработка программы распознавания геометрических фигур для подсчета трубной продукции на металлургическом предприятии : магистерская диссертация


ОСНОВНЫЕ ПОДХОДЫ К РЕШЕНИЮ ЗАДАЧ КОМПЬЮТЕРНОГО ЗРЕНИЯ



Download 1,96 Mb.
bet7/19
Sana20.07.2022
Hajmi1,96 Mb.
#828782
1   2   3   4   5   6   7   8   9   10   ...   19
Bog'liq
m th n.a.vlasova 2021

ОСНОВНЫЕ ПОДХОДЫ К РЕШЕНИЮ ЗАДАЧ КОМПЬЮТЕРНОГО ЗРЕНИЯ


В простых системах обработки CV обычно требуется получить количественную и качественную информацию из визуальных данных
(изображений): такие параметры, как размер, цвет, количество, направление и характер движения, а также контрастные переходы в окрестностях пикселя изображения, из которых производится получение характерных черт. На их основе производится анализ изображения для извлечения полезной информации. В системах обработки изображений CV используются такие методы, как машинное обучение (Machine Learning), системы глубокого обучения (Deep Learning) и нейросети (Neural Networks) [4]. Эти методы имитируют процесс
распознавания и анализа, который проходит в мозге человека.
Основные подходы к решению задач СV:

  • контурный анализ;

  • поиск по шаблону (template matching);

  • поиск вне шаблонов, сопоставление по ключевым точкам (feature detection, description matching);

  • совмещение данных (Data Fusion).

Компьютерное зрение не ограничивается только этими основными методами, например, можно выделить так называемые генетические алгоритмы, применяемые, в частности, для распознавания лиц.


Проблема компьютерного зрения кажется простой, потому что она тривиально решается людьми, даже очень маленькими детьми. Тем не менее, она в значительной степени остается нерешенной проблемой как из-за ограниченного понимания биологического зрения, так и из-за сложности восприятия зрения в динамичном и почти бесконечно меняющемся физическом мире.
Смартфоны оснащены камерами, и сделать фото или видео и поделиться им еще никогда не было так просто, что привело к невероятному росту современных социальных сетей, таких как Instagram.
YouTube, возможно, является второй по величине поисковой системой, и каждую минуту загружаются сотни часов видео, а ежедневно просматриваются миллиарды видео.
Интернет состоит из текста и изображений. Индексировать и искать текст относительно просто, но для того, чтобы индексировать и искать изображения, алгоритмам необходимо знать, что содержат изображения. В течение долгого времени содержание изображений и видео оставалось непрозрачным и лучше всего описывалось с помощью мета-данных, предоставленных человеком, который их загрузил.
Чтобы извлечь максимальную пользу из данных об изображениях, нам нужно, чтобы компьютеры "видели" изображение и понимали его содержание.
Это тривиальная проблема для человека, даже для маленьких детей. Человек может описать содержание фотографии, которую он видел один раз. Человек может кратко описать содержание видео, которое он видел всего один раз. Человек может распознать лицо, которое он видел только один раз.
Мы требуем от компьютеров по крайней мере таких же возможностей, чтобы описать наши изображения и видео.
Глаза и мозг человека воспринимают реальность и анализируют её. Зрение
– это непрерывный механический алгоритм в системе «глаза — мозг», плюс процесс восприятия. Алгоритм не трудно себе представить. Чувствительные клетки на поверхности глаза улавливают свет определённых длин волн (видимый свет); глазной хрусталик проецирует его на сетчатку, где свет преобразуется в электрические импульсы и через зрительные нервы передаётся в мозг. Дальше происходит самое интересное — восприятие информации. По одной из теорий, процесс разбивается на подзадачи для нескольких отделов мозга: одна часть занимается определением форм, другая — цветов, а третья отвечает за распознавание движений и ориентацию в пространстве. Ещё есть теория, согласно которой анализ информации не разделяется и происходит интегрировано всеми системами [5]. Так или иначе то, какую картинку мы
видим, определяется нашим предыдущим опытом. Посредством не до конца
понятных механизмов мозг достаёт значимую информацию, которая связывается с паттернами в нашей памяти, и позволяет взаимодействовать с миром.
Первые попытки заставить компьютер «видеть» относятся к началу 60-х годов 20 века [5]. Однако лишь в последние годы в связи с повышением вычислительных мощностей и быстродействия процессоров, объёмов памяти, повышением разрешающей способности и других параметров камер, развитием полосы пропускания каналов связи, а также с появлением таких технологий, как машинное и глубокое обучение (Machine/Deep Learning), искусственный интеллект AI (Artificial Intelligence) технологии CV/MV стали находить все больше применений в различных отраслях индустрии и повседневной жизни людей.
В последние годы CV стало активно использоваться в промышленности, в том числе в таких отраслях, как автомобилестроение, пищевая промышленность, фармацевтика, производство микроэлектронных изделий и многих других.
Например, в автомобилестроении применяют системы CV, чтобы считывать маркировку компонентов при сборке на конвейере. Компьютерное зрение также используется для повышения качества, в частности, для осмотра, калибровки, проверки размеров, зазоров, расстояний, а также для выравнивания деталей на линиях сборки автомобилей.
В производстве пищевой продукции системы CV могут проверять, все ли ингредиенты указаны на упаковке товара, особенно те, которые могут содержать аллергические вещества.
Фармацевтика подразумевает высокую ответственность за обеспечение безопасности, поэтому необходимо надёжно отслеживать все компоненты состава и качество готовой продукции.
При изготовлении микросхем и электронных компонентов CV используют в чистых помещениях для контроля размещения кремниевых пластин, маркировки и положения чипа интегральных схем и других элементов.
Сегодня компьютерное зрение широко применяется для многих
компонентов цифровой экономики:

  • «умный город» (Smart City);

  • интеллектуальные транспортные системы ИТС (Intelligent Transportation System);

  • автономные автомобили (Driverless Car) и системы помощи водителю ADAS (Advanced driver-assistance systems);

  • беспилотные летательные аппараты (в т.ч. дроны);

  • высокотехнологичное сельское хозяйство (Smart Agriculture);

  • электронная медицина (eHealth);

  • системы военного применения;

  • аддитивное производство (3D-printing);

  • и во многих других.




CV.
Причём, постоянно появляются всё новые области и сценарии применения
Сегодняшнее развитие систем CV пока далеко от реализации всех его

возможностей. Однако эта отрасль быстро развивается и диапазон его применений быстро ширится.
Компьютерное зрение часто путают с видеоаналитикой. Однако, эти понятия неравнозначны. Можно сказать, что видеоаналитика является составной частью компьютерного зрения в части анализа изображения.
Видеоаналитика (VCA, Video Content Analysis) – это частные приложения компьютерного зрения, которые извлекают информацию и знания из видеоконтента, то есть дают ответы на вопросы:

  • кто: распознавание и идентификация людей;

  • что: объекты, действия, события, поведение, взаимоотношения;

  • где: геолокация, пространственная (3D) и планарная (2D) локация;

  • когда: маркировка даты и времени, сезона.

Три основных типа приложений видеоаналитики:

  • ретроспектива: что уже случилось, т.е. управление архивами видеозаписей, поиск, сортировка, получение юридических доказательств;

  • настоящий момент: что происходит сейчас, т.е. контроль ситуации, получение предупреждений в реальном времени, кодирование, компрессия видеопотока;

  • взгляд в будущее: что может или скорее всего произойдёт, т.е. предсказания на основе событий прошлого и настоящего, прогнозирование событий или активности, детектирование намечающихся аномалий.

В общем случае, системы CV состоят из фото- или видеокамеры, а также компьютера, на котором работают программы обработки и анализа изображений.


Если программное обеспечение по обработке изображения расположено непосредственно в камере, такая камера называется «смарт-камерой» (рисунок 1). ПО может также работать на удалённом компьютере или компьютерах, или выполняться в облаке по модели SaaS (Software as a Service) [6].

Рисунок 1 - Структура CV-системы со Smart-камерой1





1 Составлено автором по: [4]
Системы компьютерного зрения включают следующие основные компоненты:

  • подсветку объекта (не всегда требуется) и оптику (линзы и объективы);

  • сенсорную матрицу для проецирования изображения;

  • системы обработки изображения, полученного с матрицы.

В необходимых случаях, например, внутри помещений, когда свет можно контролировать, может подсвечиваться часть объекта, которую необходимо инспектировать, так, чтобы нужные характеристики объекта были заметными для камеры.
Оптическая система проецирует полученное изображение в форме видимого или невидимого человеческим глазом спектра на сенсорную матрицу. Сенсорная матрица камеры преобразует изображение в цифровой образ, который затем посылается в процессор для анализа.
В большинстве случаев системы CV предназначены для работы в естественном освещении. Кроме того, системы CV могут работать в диапазонах, невидимых для человеческого глаза.
Для работы в условиях недостаточного освещения могут использоваться камеры с подсветкой, в которых кольцевой источник света обеспечивает яркое равномерное освещение объекта, когда необходимо высветить фактуру материала, мелкие детали и пр. Также освещение помогает избавиться от бликов, засветки объекта, используется в сложных условиях, например, в тумане (рисунок 2) [6].

Рисунок 2 - Интегрированный источник с диффузным кольцом2

Такой интегрированный источник не даёт затенения и обеспечивает ровное освещение матовых поверхностей (рисунок 2). Сенсорная матрица располагается в камере и предназначена для фиксации изображения соответствующим образом освещённого объекта. Обычно сенсорные матрицы строятся на основе полупроводниковых приборов с зарядовой связью ПЗС, CCD (charge coupled device), либо может быть использована комплементарная технология «металл- окисел-полупроводник» КМОП, или CMOS (complementary metal oxide semiconductor) [6].


Изображение представляет собой набор элементов – пикселей, цвет которых зависит от освещённости. Плотность пикселей (разрешение сенсорной матрицы) очень важна для корректной работы приложения компьютерного зрения. Чем больше разрешение, тем больше деталей будет на изображении, тем более точными будут измерения. Требуемая плотность пикселей зависит от размеров объекта, рабочего расстояния камеры и других параметров.
Существует три основных типа систем CV:

    • одномерные (1D),

    • двумерные (2D),

    • объёмные (3D) системы СV.

Отдельно стоят панорамные многокамерные системы и системы «рыбий глаз» (fisheye), которые обычно относят к особому типу, а иногда, в зависимости
от количества камер, их конструкции и расположению – к одному из вышеперечисленных типов.
Стереозрение – один из методов извлечения информации о глубине сцены при помощи изображений с двух камер (стереопары). В основе метода лежит принцип человеческого зрения, когда мозг человека получает информацию об объёме по картинке от двух глаз. Точно так же разница в расположении пикселей в изображении с двух камер даёт информацию о глубине (рисунок 3).


Рисунок 3 – Принцип стереозрения3


При помощи регулировки расстояния между камерами стереопары (baseline) можно регулировать требуемую глубину распознавания сцены.


Сферические (панорамные) системы «рыбий глаз» (fisheye) используются для эмуляции панорамных PTZ-камер для видеонаблюдения и для интеграции
трансляционных веб-камер в 2D- и 3D-приложения геоинформационных систем (ГИС), таких как Google Earth и Google Maps [6].
Панорамные fisheye-системы, работающие с приложениями обработки изображений облачных провайдеров, применяются, например, в системах помощи водителю (ADAS), беспилотных автомобилях, при мониторинге больших пространств и подсчёте количества людей (рисунок 4).

Рисунок 4 – Типичное изображение с камеры «рыбий глаз»4 Массивы (сети) камер используются для отслеживания перемещения


отдельных людей внутри помещений или в местах с ограниченной видимостью (склады в морских портах, заводские территории и пр.), а также для управления дорожным движением в интеллектуальных транспортных системах (ИТС).
Системы из небольшого количества (2 – 6) камер применяются для таких областей как:

  • автоматизация производства;

  • видеонаблюдение с БПЛА;

  • 3D-фильмы;

  • интерактивные игры AR/VR;

  • распознавание лиц, движения, идентификации и пр.

Например, использование многокамерной системы из пяти камер на конвейере при массовом производстве значительно облегчает контроль качества продукции (рисунок 5).




Рисунок 5 – Система из пяти камер для контроля качества продукции на


конвейере5
Для реализации ПО под проекты, использующие компьютерное зрение, существуют несколько библиотек. Ниже представлен список самых востребованных и популярных среди ML-инженеров:

  1. OpenCV (Open Source Computer Vision Library) – библиотека алгоритмов компьютерного зрения, обработки изображений и численных алгоритмов общего назначения. Реализована на языке C/C++, также разрабатывается для Python, Java, Ruby, Matlab, Lua и других языков.

  2. PCL (Point Cloud Library) — крупномасштабный открытый проект для обработки 2D/3D-изображений и облаков точек. Платформа PCL содержит множество алгоритмов, включая фильтрацию, оценку характеристик, реконструкцию поверхности, регистрацию, подбор модели и сегментацию.

  3. ROS (Robot Operating System) – платформа разработки ПО для роботов. Она представляет собой набор инструментов, библиотек и соглашений, которые упрощают разработки сложных и эффективных программ для управления многими типами роботов.

  4. MATLAB — высокоуровневый язык и интерактивная среда для программирования, численных расчётов и визуализации результатов. С помощью MATLAB можно анализировать данные, разрабатывать алгоритмы, создавать модели и приложения.

  5. CUDA (Compute Unified Device Architecture) — программно- аппаратная архитектура параллельных вычислений, которая позволяет существенно увеличить вычислительную производительность благодаря использованию графических процессоров фирмы Nvidia.

Download 1,96 Mb.

Do'stlaringiz bilan baham:
1   2   3   4   5   6   7   8   9   10   ...   19




Ma'lumotlar bazasi mualliflik huquqi bilan himoyalangan ©hozir.org 2025
ma'muriyatiga murojaat qiling

kiriting | ro'yxatdan o'tish
    Bosh sahifa
юртда тантана
Боғда битган
Бугун юртда
Эшитганлар жилманглар
Эшитмадим деманглар
битган бодомлар
Yangiariq tumani
qitish marakazi
Raqamli texnologiyalar
ilishida muhokamadan
tasdiqqa tavsiya
tavsiya etilgan
iqtisodiyot kafedrasi
steiermarkischen landesregierung
asarlaringizni yuboring
o'zingizning asarlaringizni
Iltimos faqat
faqat o'zingizning
steierm rkischen
landesregierung fachabteilung
rkischen landesregierung
hamshira loyihasi
loyihasi mavsum
faolyatining oqibatlari
asosiy adabiyotlar
fakulteti ahborot
ahborot havfsizligi
havfsizligi kafedrasi
fanidan bo’yicha
fakulteti iqtisodiyot
boshqaruv fakulteti
chiqarishda boshqaruv
ishlab chiqarishda
iqtisodiyot fakultet
multiservis tarmoqlari
fanidan asosiy
Uzbek fanidan
mavzulari potok
asosidagi multiservis
'aliyyil a'ziym
billahil 'aliyyil
illaa billahil
quvvata illaa
falah' deganida
Kompyuter savodxonligi
bo’yicha mustaqil
'alal falah'
Hayya 'alal
'alas soloh
Hayya 'alas
mavsum boyicha


yuklab olish