ЗАДАЧИ КОМПЬЮТЕРНОГО ЗРЕНИЯ
Научный прогресс идет по двум направлениям: экспериментальное и теоретическое. На экспериментальном рубеже исследователи выполняют некоторую комбинацию исследовательской экспериментальной работы и формальной проверки гипотез. В исследовательской экспериментальной работе проводятся эксперименты и собираются данные в надежде, что в наблюдаемых данных можно будет расшифровать некую закономерность, которая позволит выдвинуть формальную гипотезу для проверки. В режиме проверки гипотезы эксперименты проводятся путем явного создания некоторой контролируемой ситуации и проверки того, согласуются ли полученные наблюдения с тем, что можно было бы ожидать, если бы гипотеза была верна. Гипотеза может быть предположением, законом, который следует из теории, или проверкой гипотезы, которая пытается воспроизвести результаты ранее проведенного эксперимента. На теоретическом рубеже исследователи выполняют определенную комбинацию синтеза экспериментальных данных и существующей теории в более полную последовательную и общую теорию. Язык теории выражается в математической форме во всех естественных науках.
Как наука, компьютерное зрение имеет свои экспериментальные и теоретические аспекты. В теории науки компьютерного зрения можно ожидать законы и принципы, на основе которых компьютерные алгоритмы могут быть разработаны для решения разнообразных задач технического зрения, таких как промышленный контроль, сборка роботов, автономная навигация транспортных средств и общее понимание трехмерных сцен. В экспериментальных результатах, представленных в архивной научной литературе по компьютерному зрению, можно ожидать найти четкое описание контролируемых ситуаций, в которых проводились эксперименты, точное изложение используемого алгоритма и изложение результатов, включающее некоторую меру
достоверности заявленных результатов. В теоретических результатах, представленных в архивной научной литературе, можно было бы ожидать найти множество частичных или неполных теорий, каждая из которых дает точное изложение конкретной проблемы компьютерного зрения, которую рассматривает теория. Содержание теории должно развивать набор законов, принципов и связанных с ними алгоритмов, которые логически исходят из исходной постановки проблемы и предположений, относящихся к реальности, которую рассматривает теория. Алгоритмы принимают на вход соответствующее изображение или изображения и выполняют вычисления, которые дают ответ, правильный по модулю количества шума в данных и адекватности теории.
При широком рассмотрении исследований в области компьютерного зрения становится очевидным, что эта наука молода и незрела. Теоретическая база скудна. Для сложных алгоритмов практически не существует репликации. Очень немногие эксперименты проводятся на достаточном количестве данных изображений, чтобы можно было с уверенностью утверждать о достоверности результатов. Похоже, что нет никакого соглашения о контролируемых наборах данных для любых экспериментов. Многие эксперименты проводятся по принципу «смотри, без рук». Действительно, эксперименты часто чрезвычайно сложны, потому что алгоритмы компьютерного зрения чрезвычайно сложны. Алгоритмы настолько сложны, что детали алгоритма часто не могут быть полностью изложены в одной статье. Трудно не только точно сформулировать проблему, но и почти невозможно найти соответствующие допущения, которые делают математические выкладки, вытекающие из постановки проблемы, одновременно математически выполнимыми и разумно описывающими реальность.
При чтении литературы даже возникает ощущение, что, возможно, достаточно самого алгоритма, без указания того, какая проблема решается, или без указания степени решения любой проблемы. На семинаре по компьютерному
зрению на основе моделей, проведенном в Орландо в 1985 году при поддержке
NSF, некоторые участники даже придерживались мнения, что не стоит пытаться точно формулировать проблемы или пытаться вывести из формальных формулировок проблем оптимальные или близкие к оптимальным решения. Эти люди считали, что единственное, что имеет значение, это то, дает ли алгоритм достаточно хорошие результаты в том приложении, для которого он предназначен.
Каждая наука разрабатывает свод принципов, которые используются при решении прикладных задач, на которые направлена данная наука. Конечно, свод принципов подвергается уточнениям и изменениям по мере развития науки. Для компьютерного зрения свод принципов будет содержать постановку задач и методы решения различных проблем компьютерного зрения. Эти постановки задач будут представлять собой постановки задач канонической формы. Например, в распознавании образов при условном гауссовском допущении класса хорошо известна квадратичная форма оптимального правила принятия решений с максимальным правдоподобием. В компьютерном зрении хорошо сформулирована каноническая проблема реляционного соответствия по реляционному гомоморфизму и известны эффективные методы поиска деревьев для вычисления функции соответствия. В численном анализе хорошо известны стабильные методы выполнения разложения матрицы по сингулярным значениям или определения собственных векторов матрицы, которые доступны в стандартных программных пакетах, таких как LINPACK, EISPACK и SPSS [13].
Компьютерное зрение, безусловно, имеет свой набор инструментов. Но не факт, что очень многие из этих инструментов представляют собой оптимальную технику решения четко определенной проблемы.
Определение позы объекта - это процесс, в ходе которого двумерная перспективная проекция трехмерного объекта анализируется для определения позы (положения и ориентации) объекта относительно заданной трехмерной системы координатных осей [14]. Сначала анализ зависит от возможности
сопоставления двумерной перспективной проекции объекта на изображении с
трехмерной моделью объекта. Затем, учитывая соответствие, необходимо определить неизвестные параметры перспективной проекции. Затем преобразование координат в заданную трехмерную систему координат позволяет определить позу объекта.
Современные системы искусственного интеллекта могут идти дальше и предпринимать действия, основанные на понимании изображения. Существует множество типов компьютерного зрения, которые используются по-разному [8]:
Do'stlaringiz bilan baham: |