Санкт-Петербург


Кремнев Иван Александрович



Download 10,56 Mb.
Pdf ko'rish
bet88/198
Sana24.02.2022
Hajmi10,56 Mb.
#209176
1   ...   84   85   86   87   88   89   90   91   ...   198
Bog'liq
1 almanakh 2018 tom1

Кремнев Иван Александрович 
Год рождения: 1994 
Университет ИТМО, факультет систем управления и робототехники, 
кафедра высшей математики, студент группы № P4295 
Направление подготовки: 01.04.02 – Прикладная математика 
и информатика 
e-mail: juankremnev@gmail.com 
УДК 004.85 
КОМПЬЮТЕРНОЕ ЗРЕНИЕ В РОБОТОТЕХНИКЕ 
Кремнев И.А. 
Научный руководитель – к.ф.-м.н., доцент Фильченков А.А. 
Работа выполнена в рамках темы НИР № 617026 «Технологии киберфизических систем: 
управление, вычисления, безопасность». 
В работе рассмотрены подходы к построению трехмерных карт вероятности нахождения ключевых 
точек объекта. Инструментом решения задачи выбраны глубокие нейронные сети. Исследованы 
различные архитектуры сетей, учитывающие высокую размерность целевой функции, а также 
особенности синтетических данных для обучения. Генеративные подходы используются для 
моделирования распределения на скрытые переменные, описывающие положение объекта в 
пространстве. 
Ключевые слова: компьютерное зрение, глубокое обучение, объемное представление. 
Задача предсказания ключевых точек объекта по изображениям с камеры возникает 
в процессе автоматизации производства. Традиционно предсказание ключевых точек 
объекта с целью определения его положения в пространстве связано с такими задачами, 
как определение позы человека. В подобных задачах набор ключевых точек всегда 
известен, поэтому зачастую формально рассматривается задача регрессии координат 
ключевых точек в плоскости изображения или в пространстве сцены [1]. В настоящей 
задаче, однако, модели объектов в сцене могут быть разными, а также часть ключевых 
точек может быть скрыта от камеры. Исходя из этого, формально требуется ставить 
задачу предсказания вероятностного распределения ключевых точек по изображениям с 
одной или двух камер [2]. 
Популярным инструментом решения задачи компьютерного зрения являются 
нейронные сети. В данной работе производится сравнительный анализ различных 
нейросетевых моделей, в частности, сверточных кодировщиков, а также генеративной 
модели вариационного автокодировщика, как возможных инструментов для вычисления 
требуемых вероятностей. Использование генеративных моделей повышает способность сети 
предсказывать скрытые ключевые точки за счет выделения скрытых переменных, 
отвечающих, в частности, за форму и положение объекта [3]. 
Чтобы решить проблему высокой размерности целевой функции, приходится 
проводить обучение нейросетевой модели в несколько этапов, вводя при этом 
промежуточные цели, такие как предсказание распределения ключевых точек на плоскости 
изображения, а также предсказание матрицы поворота модели. Также возможен подход с 
постепенным увеличением разрешения по третьему измерению при помощи множественных 
целей, чтобы обучение проходило наиболее гладко [2]. 
Данные для обучения используются синтетические. С одной стороны, этот подход 
обеспечивает почти безграничный набор данных, что существенно при обучении нейронных 
сетей, а также точные метки. С другой, приходится сталкиваться с проблемой низкой 


Альманах научных работ молодых ученых 
XLVII научной и учебно-методической конференции Университета ИТМО. Том 1 
136 
обобщающей способности обученных моделей на реальные данные. Последняя проблема 
должна решаться как улучшением используемых в синтезе текстур, так и выбором 
архитектур сетей, наиболее способных к обобщению. 
В ходе исследования рассмотрены следующие варианты нейросетевых архитектур. 
1. Последовательность сверточных кодировщиков, каждый из которых улучшает объемные 
предсказания распределения ключевых точек предыдущего на основе его карт активации с 
предпоследнего слоя. Такая архитектура была успешно использована в задаче 
предсказания положение тела человека [2]. Результаты текущих исследований показали, 
что такая система обучается распознавать видимые ключевые точки, но не справляется с 
точками, скрытыми от камеры. 
2. Вариационный автокодировщик. Это генеративная модель для оценки правдоподобия 
предсказываемых значений ключевых точек, принцип работы которой заключается в 
моделировании распределения на пространстве скрытых переменных, отвечающих за 
ключевые особенности объектов на изображении. Приближение распределения на 
предсказываемых данных достигается алгоритмом оптимизации нижней границы на 
обоснованность (ELBO). Теория и вариации такой архитектуры подробно описаны в 
работе [3]. Вариационный автокодировщик позволил захватить информацию о скрытых 
точках, но его генеративная природа не позволила достигнуть достаточной точности при 
определении их пространственного положения. 
3. Комбинация сверточной сети с вариационным кодировщиком. Учитывая преимущества и 
проблемы двух рассмотренных до этого архитектур, естественным шагом является их 
комбинация с правильным распределением задач. В связи с этим в ходе исследования 
разработана модель глубокой нейронной сети, получающей на вход изображения с камер, 
и обрабатывающей эти данные в непоследовательном графе вычислений. Сначала 
вариационный кодировщик моделирует распределение скрытых переменных для оценки 
матрицы аффинного преобразования пространства, включающей информацию о повороте 
и сдвиге объекта в пространстве. Кроме того, кодировщик предсказывает структуру 
группы ключевых точек для данного объекта, отвечающую его геометрической форме. 
Данные, предсказываемые кодировщиком, подаются на вход сверточной сети вместе с 
исходными изображениями. Она использует изображения для уточнения предсказания 
положения ключевых точек, полученного кодировщиком. 
4. Интерес представляет использование капсульной сети, сильной стороной которой 
является внимание к пространственному положению детектируемых особенностей на 
изображении. Хотя на данный момент инструмент капсульных сетей недостаточно развит, 
в конце 2017 года был предложен эффективный метод обучения таких сетей. 
Использование данной архитектуры можно рассматривать как дальнейшее направление 
исследования. 
Все предложенные архитектуры включают в себя общепринятые методы 
регуляризации, такие как батч-нормализация или дропаут. Без использования этих техник 
сети склонны к переобучению. 
Предложенные архитектуры разрабатываются и обучаются с использованием 
фреймворков Tensorflow и Keras. В качестве функций потерь используются дивергенция 
Кульбака–Лейблера, при обучении вариационного кодировщика в пространстве 
скрытых переменных, и среднеквадратичное отклонение, при обучении объемных 
предсказаний. 
Дальнейшее 
исследование 
должно 
двигаться 
в 
направлении 
обобщения 
распознавательной способности на модели различных геометрических форм. Кроме того, 
требуется повышать надежность системы на случай наличия лишь одной камеры. 
Бинокулярное зрение может играть существенную роль в качестве модели. В таком сценарии 
должна возрасти роль предсказываемой вариационным кодировщиком матрицы аффинного 
преобразования. 


Альманах научных работ молодых ученых 
XLVII научной и учебно-методической конференции Университета ИТМО. Том 1 
137 

Download 10,56 Mb.

Do'stlaringiz bilan baham:
1   ...   84   85   86   87   88   89   90   91   ...   198




Ma'lumotlar bazasi mualliflik huquqi bilan himoyalangan ©hozir.org 2024
ma'muriyatiga murojaat qiling

kiriting | ro'yxatdan o'tish
    Bosh sahifa
юртда тантана
Боғда битган
Бугун юртда
Эшитганлар жилманглар
Эшитмадим деманглар
битган бодомлар
Yangiariq tumani
qitish marakazi
Raqamli texnologiyalar
ilishida muhokamadan
tasdiqqa tavsiya
tavsiya etilgan
iqtisodiyot kafedrasi
steiermarkischen landesregierung
asarlaringizni yuboring
o'zingizning asarlaringizni
Iltimos faqat
faqat o'zingizning
steierm rkischen
landesregierung fachabteilung
rkischen landesregierung
hamshira loyihasi
loyihasi mavsum
faolyatining oqibatlari
asosiy adabiyotlar
fakulteti ahborot
ahborot havfsizligi
havfsizligi kafedrasi
fanidan bo’yicha
fakulteti iqtisodiyot
boshqaruv fakulteti
chiqarishda boshqaruv
ishlab chiqarishda
iqtisodiyot fakultet
multiservis tarmoqlari
fanidan asosiy
Uzbek fanidan
mavzulari potok
asosidagi multiservis
'aliyyil a'ziym
billahil 'aliyyil
illaa billahil
quvvata illaa
falah' deganida
Kompyuter savodxonligi
bo’yicha mustaqil
'alal falah'
Hayya 'alal
'alas soloh
Hayya 'alas
mavsum boyicha


yuklab olish