Альманах научных работ молодых ученых
XLVII научной и учебно-методической конференции Университета ИТМО. Том 1
136
обобщающей способности обученных моделей на реальные данные. Последняя проблема
должна решаться как улучшением используемых в синтезе текстур, так и выбором
архитектур сетей, наиболее способных к обобщению.
В ходе исследования рассмотрены следующие варианты нейросетевых архитектур.
1. Последовательность сверточных кодировщиков, каждый из которых улучшает объемные
предсказания распределения ключевых точек предыдущего на основе его карт активации с
предпоследнего слоя. Такая архитектура была успешно
использована в задаче
предсказания положение тела человека [2]. Результаты текущих исследований показали,
что такая система обучается распознавать видимые ключевые точки, но не справляется с
точками, скрытыми от камеры.
2. Вариационный автокодировщик. Это генеративная модель для оценки правдоподобия
предсказываемых значений ключевых точек, принцип работы которой заключается в
моделировании распределения на пространстве скрытых переменных, отвечающих за
ключевые особенности объектов на изображении. Приближение распределения на
предсказываемых данных достигается алгоритмом оптимизации нижней границы на
обоснованность (ELBO). Теория и вариации такой архитектуры
подробно описаны в
работе [3]. Вариационный автокодировщик позволил захватить информацию о скрытых
точках, но его генеративная природа не позволила достигнуть достаточной точности при
определении их пространственного положения.
3. Комбинация сверточной сети с вариационным кодировщиком. Учитывая преимущества и
проблемы двух рассмотренных до этого архитектур, естественным шагом является их
комбинация с правильным распределением задач. В связи с этим в ходе исследования
разработана модель глубокой нейронной сети, получающей на вход изображения с камер,
и обрабатывающей эти данные в непоследовательном графе вычислений. Сначала
вариационный кодировщик моделирует распределение скрытых переменных для оценки
матрицы аффинного преобразования пространства, включающей информацию о повороте
и сдвиге объекта в пространстве. Кроме того, кодировщик предсказывает структуру
группы ключевых
точек для данного объекта, отвечающую его геометрической форме.
Данные, предсказываемые кодировщиком, подаются на вход сверточной сети вместе с
исходными изображениями. Она использует изображения для уточнения предсказания
положения ключевых точек, полученного кодировщиком.
4. Интерес представляет использование капсульной сети, сильной стороной которой
является внимание к пространственному положению детектируемых особенностей на
изображении. Хотя на данный момент инструмент капсульных сетей недостаточно развит,
в конце 2017 года был предложен эффективный метод обучения таких сетей.
Использование данной архитектуры можно рассматривать как дальнейшее направление
исследования.
Все предложенные архитектуры включают в
себя общепринятые методы
регуляризации, такие как батч-нормализация или дропаут. Без использования этих техник
сети склонны к переобучению.
Предложенные архитектуры разрабатываются и обучаются с использованием
фреймворков Tensorflow и Keras. В качестве функций потерь используются дивергенция
Кульбака–Лейблера, при обучении вариационного кодировщика в пространстве
скрытых переменных, и среднеквадратичное отклонение, при обучении объемных
предсказаний.
Дальнейшее
исследование
должно
двигаться
в
направлении
обобщения
распознавательной способности на модели различных геометрических форм. Кроме того,
требуется повышать надежность системы на случай наличия лишь одной камеры.
Бинокулярное зрение может играть существенную роль в качестве модели. В таком сценарии
должна возрасти роль предсказываемой вариационным кодировщиком матрицы аффинного
преобразования.