Была реализована в среде пакета матлаб с исполь­зованием встроенной в компьютер вэб-камеры. Результат работы системы по классификации текущего состояния глаз приведен на рис. 32, а, б



Download 1,1 Mb.
Sana25.06.2022
Hajmi1,1 Mb.
#703225
TuriЗадача
Bog'liq
Система была реализована в среде пакета МАТЛАБ с исполь


Система была реализована в среде пакета МАТЛАБ с исполь­зованием встроенной в компьютер вэб-камеры. Результат работы системы по классификации текущего состояния глаз приведен на рис. 5.32, а, б.
Сделаем некоторые выводы. Задача оценки текущего психо­физического состояния человека решена на примере определения состояния бодрствования и сна человека по его глазам. При этом показаны прикладные задачи, требующие оценки такого состоя­ния человека, определены подходы для решения этой задачи, предложена структура системы для ее реализации, представлены алгоритмы ее функционирования. Предложенная система работает в рамках реального времени: реализуется наблюдение за текущим ракурсом лица человека, выполняется классификация состояния глаз (открыты/закрыты) и выполняется подсчет времени для этих состояний. В критических случаях система формирует сигналы тревоги и специальные предупреждающие сообщения.
В настоящей главе представлены методы распознавания изо­бражений лиц «простыми FaReS» [Кух0б]. Такие FaReS содержат минимум функциональных блоков, что и отличает их от более сложных типов FaReS, содержащих в своей структуре блоки пред­обработки исходных данных, блоки детекции и нормализации лиц, блок редукции размерности пространства признаков и функцио­нально развитую структуру компараторов и классификаторов.
6.1. ПОДХОДЫ К ЭКСТРАКЦИИ ПРИЗНАКОВ ИЗ ЦИФРОВЫХ ИЗОБРАЖЕНИЙ
На входе FaReS задано цифровое изображение, единственным (или наибольшим) объектом на котором является лицо челове­ка. Далее будем исходить из того, что каждое изображение лица может быть представлено некоторым набором признаков и такое представление содержит всю необходимую информацию для даль­нейшей ее обработки. Все операции в системе распознавания будут осуществляться далее только в этом пространстве признаков.
Если база данных FaReS содержит эталоны изображений лиц, представленные в форме соответствующих наборов признаков, а на входе FaReS задано выделенное изображение лица, то процесс, реа­лизуемый простой FaReS, складывается всего из двух этапов:
Экстракции признаков—представления распознаваемого изо­бражения лица в форме исходного набора признаков и, возможно, селекции некоторых признаков из исходного (полного) набора;
сравнения выбранного набора признаков с признаками эта­лонов и принятия решений о принадлежности исходного образа к одному из известных классов.
Структура FaReS представлена на рис. 6.1. Основными блока­ми FaReS являются: база эталонов, блок экстракции/селекции признаков (ЭП/СП) и компаратор. Исходные признаки для изо­бражений с лицами определим в данном случае через яркостные значения их пикселей.
Итак, пусть на входе FaReS задано цифровое изображение, единственным (или наибольшим) объектом на котором является лицо человека. Размер изображения составляет   пикселей.



Результат
Рис. 6.1. Структура FaReS
При использовании яркостных признаков для представления изо­бражений с лицами размерность DIM вектора признаков (в резуль­тате конкатенации столбцов или строк исходного изображения) составит MN. Параметр DIM определяет размерность исходного пространства признаков. Например, для М=112 и N=92 (база лиц [ORL**]) DIM=10304.
Исходное изображение с лицом может быть представлено век­тором (признаков) существенно меньшего, чем MN, размера на основе нескольких простых подходов, схематически отображенных на рис. 6.2 [Кух06, Кух07].
Подход 1 (П1). Уменьшим исходное изображение до размера тхп и выполним конкатенацию всех тп пикселей в вектор яр­костных признаков (при этом     и  ). Здесь можно использовать, например, механизмы усреднения соседних пикселей (Scale), простые процедуры Downsampling или процедуры

Рис. 6.2. Варианты представления изображений лиц
низкочастотной фильтрации канала вейвлет-реобразования (Wawelet Transform [Lai01]). Условно эти подходы назовем «Sc-Scale», «Sc-DS» или «Sc-W».
Подход 2 (П2). Выберем «случайным» образом отдельные пик­сели исходного изображения и сведем их в вектор яркостных признаков (с числом признаков от 200 до 400). При этом можно выбрать пиксели, равномерно распределенные по всему изображе­нию лица, или пиксели, определенные р линиями, нанесенными на область лица, и д случайными точками на них [Dev99]. Этот подход назовем R — от англ. Random.
Подход 3 (ПЗ). Выполним некоторое дискретное (ортогональ­ное) преобразование исходных изображений с формированием на­бора признаков из верхнего угла спектрального ядра (размер ядра  , где  ). Здесь, например, можно использовать двумер­ное дискретное преобразование Фурье или двумерное дискретное косинус-преобразование. Эти подходы определим как Spektrum DFT/DCT [Lai01,Haf01].
Подход 4 (П4). Вычислим гистограмму яркости исходного изо­бражения и сведем ее значения в соответствующий вектор призна­ков [Tis97]. Вычислять можно также гистограмму, составленную из гистограмм верхней и нижней половин исходного изображения [Кух07]. При этом, если число уровней яркости каждой гисто­граммы задано параметром BIN, то размер вектора признаков в первом случае будет соответственно BIN , а во втором слу­чае — ( ) , где  . Эти подходы определим как Histogram.
Подход 5 (П5). Вычислим расстояние между двумя зеркально расположенными полосами шириной  пикселя, «скользящи­ми» по исходному изображению лица. Полосы могут «скользить» как в вертикальном направлении, так и в горизонтальном. Рас­стояние на каждом этапе скольжения можно рассматривать как градиент яркости между зеркально расположенными полосами. Все значения этих градиентов запишем в соответствующий вектор признаков. Этот подход определим как Gradient.
В подходах П1 и П2 исходное изображение представляется набором из категории физических признаков — яркостными при­знаками изображения. В подходах ПЗ — П5 исходное изображение представляется набором из категории математических призна­ков — спектральных, гистограммных и градиентных.
Системы распознавания лиц, использующие подобные мето­ды экстракции признаков из изображений с лицами, были впер­вые представлены в [Lai01, Dev99, Haf01, Tis97] и исследованы в [Кух06, Кух07, КикОбс, Кик05c, For07]. Каждый из этих методов определяет признаки, обладающие некоторыми свойствами инва­риантности, что будет показано и обсуждено ниже. Использование этих признаков при решении задач распознавания лиц показало высокое быстродействие соответствующих FaReS и относительно высокую их результативность при решении задач класса Face Retrieval [For07].
6.2. ПРОЦЕДУРЫ ЭКСТРАКЦИИ ПРИЗНАКОВ В FaReS
6.2.1. Реализация подхода П1 («Sc-Scale», «Sc-Dc» и «Sc-W»)
Этот подход выделения признаков наиболее известен и широко распространен в FaReS. Главной идеей здесь является уменьшение исходного изображения лица до размера тхв, при котором
 , (6.1)
Где  — размерность вектора признаков нового (уменьшенного) изображения. Выполняя далее конкатенацию всех пик­селей уменьшенного изображения, получаем вектор признаков, представляющий это изображение. Поскольку в соответствии с требованиями стандарта [Bio04 и ГОСТ 0б] лицо на исходном изображении занимает не менее 80 % всей площади изображения, то можно считать, что вектор признаков представляет только это лицо.
Эффектом такого выбора признаков является уменьшение влия­ния на результат распознавания фона на границах области лица, а также небольших поворотов и смещений головы в исходном изображении. При этом уменьшение исходного изображения до размеров тип должно быть таким, чтобы полученные изображе­ния были различимы между собой (обычно  и  ).
Процедура «Sc-Scale». Эта процедура выполняется как замена области, определенной квадратом со стороной I пикселей (1 = 2, 3, 5, ...) исходного изображения, одним пикселем со значением, равным среднему значению в этой области. При этом изображение- результат будет иметь размер  . Схематически это показано на рис. 6.3, причем перевод результата в векторную форму не является обязательным.
Несомненным достоинством этого способа является относитель­ная простота его реализации. Однако основной недостаток — это нарушение симметрии области лица на изображении-результате, что отчетливо видно на рис. 6.3.



Изображение
размером М хЫ

Замена выбранной области
ее средним значением

Результат




Рис. 6.3. Варианты представления изображений лиц
Процедура «Sc-DS». Этот способ уменьшения исходного изобра­жения реализуется как процедура «downsampling» с получением изображений-клонов. Однако в практике обработки изображений лиц необходимо получить несколько изображений-клонов из одно­го и того же исходного изображения. В этом случае процедура «Sc-DS» реализуется как перестановка (переупорядочение) строк и столбцов исходной матрицы так, чтобы в одном месте собра­лись нечетные строки и столбцы, а в другом — четные строки и столбцы. Внутри этих собраний также выполняется аналогичная перестановка. В общем случае процедура «Sc-DS» реализуется как двумерная перестановка (двумерный «downsampling», или 2D DS). Процедура 2D DS и результат двумерной перестановки показаны на рис. 6.4 на примере числовой матрицы четвертого порядка с использованием двух (левой и правой) мономиальных матриц перестановок.
Если исходная матрица представляет собой изображение лица, то в результате выполнения первого шага процедуры 2D DS по­лучим четыре новых изображения, соответствующих исходному изображению лица. Размер этих изображений будет равен поло­вине размера исходного изображения лица. Эти изображения и есть изображения-клоны. Операция, обратная процедуре 2D DS, восстановит исходное изображение из этих клонов.

Рис. 6.4. Результат применения процедуры 2D «downsampling»
Пусть исходное изображение лица будет записано в форме ма­трицы   размером  . И пусть М и N — четные числа.
Сформируем две вспомогательные прямоугольные матрицы   и   так, что [Даг83, Kuk09a]:
н2х(М/2) ~
1 0 ... О
О ... О 1
М/2
И Я2х(ЛГ/2) “
1 0 ... О
О ... О 1 *
N/2
(6.2)
Сформируем теперь начальные матрицы перестановок — левую 4хм и правую Е^м:
4хМ “ [Я2х(М/2) °2х(М/2)1;
= [Я2х(АГ / 2) °2х(ЛГ / 2) ]>
(6.3)
где 02х(*) — нулевые матрицы размеров, определяемых нижними индексами.
Теперь сформируем рекуррентно следующие матрицы переста­новок:
тИ)
^(21)хМ
»(о
п(21)хИ
(21-2)хМ
[°2х(1-1) Н2х(М/2) °2х((М/2)-1)]
Л(2г-2)хАГ
[°2хЦ-1) Н2х(И/2) °2х((2У/2)-1)1
, V 1 = 2, ..., М/2;
(6.4)
, V 1 = 2, ..., N/2.
В выражении (6.4) матрицы для граничных значений параме­тра итерации г соответствуют пустому множеству (или отсутствию этих матриц).
Соответствующая методу (6.4) процедура в языке пакета МАТЬАВ представлена ниже:
Гипс1:1оп [Ь, Р] =та1:г1хРЗ (М, И);
М2=М/2;
Н=гегоз(2,М2+1); Н(1,1)=1; Н(2,епй)=1;
Ь=[]; Еог к]=1:М2
Ь=[Ъ; [гегоз (2,^-1) Н гегоз (2,М2-к]) ] ] ; (6.5)
епй;
Ы2=Ы/2;
Н=гегоз(2,N2+1); Н(1,1)=1; Н(2,епй)=1;
К=[]; :Еог к]=1:Ы2
К=[К; [гегоз (2,^-1) Н гегоз (2,N2-^) ] ] ;
епй;
188

где Н — вспомогательные прямоугольные матрицы (6.2).


Теперь выполним процедуру 2Б Б8 матрицы 1д^хаг:
т(с1опе) _ (т(М/2),т , ЫМ/2)
1МхМ ~ ^МхМ > 1МхЫ лЛГх^ ’ (0.6)
в результате которой получим матрицу содержащую че­
тыре клона.
Пример получения четырех клонов из исходного изображения лица приведен на рис. 6.5. Здесь также показан промежуточный результат — умножение исходной матрицы на правую матрицу перестановки. Левая матрица перестановки показана в транспо­нированной форме, что отвечает соотношению (6.6).
Белые точки в поле матриц перестановок соответствуют значе­нию «1», а черный фон соответствуют значению «О*. Обратной к процедуре (6.6) будет операция 2Б «ирзатрИщ*»:
г — /2) Ис1опе) (Т)№ /2)\Т
1МхЫ - ьМхМ ^МхЫ (^ЛГх# ' » (6.7)
в результате которой из матрицы, содержащей четыре клона, по­лучим матрицу исходного изображения. Пример этой операции показан на рис. 6.6.
Если процедуру 2Т) * йолупзатрИпд» применить два раза к исходному изображению, то получим 16 изображений-клонов. В матричной форме это может быть представлено следующим об­разом:

Рис. 6.5. 2Б «йслупнатрИпг»: пример получения четырех изображений-клонов
189



Рис. 6.6. 2Б «ирзатрИщг*: пример получения исходного изображения
из четырех клонов
1(м°ме) = (6-8)
или
г(с1опе) _Гг(М/2ЫМ/2)хГ г (Е^/2) о(#/2К
1МхN ~ УЪМхМ ЬМхМ > 1МхЫ У^ЫхИ пЫхN >’ (Ь.У)
где выражения в круглых скобках — результат перемножения мономиальных матриц перестановок.
Пример получения 16 изображений-клонов показан на рис. 6.7.
Если М и N являются двоично-рациональными числами, то пару 2Б-преобразований — «боАУпаашрИп^» и «ирзатрИщ*» для параметра Б8 — можно записать в следующей форме (число изображений-клонов в этом случае определяется как 2п8):
Г Ис1опе) _ и им / 2) да] ,т т (Я(М/ 2) да].
-№МхМ> -1 ^МхУ УпМхМ > »
’ т _/г(М/2)да] Ис1опе) [(п(Ы/2Ы08],Т (ЬЛ0)
^Мх!V - У^МхМ > 1МхЫ ^пМхМ > ^ »

Рис. 6.7. Пример получения 16 изображений-клонов
190
где параметр Б8 принимает значения, равные 1, 2, 4, 8, [1)5] —
означает степень матрицы.
Если требуется, то в некоторых случаях матрицы-клоны необхо­димо будет трансформировать в векторную форму, что отмечалось выше и было представлено на рис. 6.3.
Оценим теперь достоинства и недостатки метода.
Достоинствами являются:
простой способ генерации матриц проекции Ь, В и очень про­стая их структура, что можно использовать для их компактного хранения;
простой способ реализации процедур (6.10);
матрица-результат сохраняет исходную категорию признаков (в данном случае — яркость пикселей), что может быть очень важно в процессе дальнейшей обработки результата;
матрица-результат сохраняет семантику исходного изобра­жения, что очень важно в задачах понимания и распознавания изображений человеко-машинными системами;
матрица-результат сохраняет симметрию исходного изобра­жения, если М, N и р являются двоично-рациональными чис­лами.
Недостатком метода является невозможность получения вы­сокой степени редукции (например, в 100 раз и более).
Процедура «8с-Л^». Этот способ уменьшения исходного изобра­жения реализуется на основе двумерного вейвлет-преобразования («Тауо ШтепшопаШу ^ауе1е1 Тгапз1огт» — 2Б ^7Т), которое часто используется в обработке и распознавании изображений [Ьа101]. В биометрии 2В используется для фильтрации исходных изо­бражений с лицами, экстракции признаков из них, выделения границ лиц и границ областей на них и т. д.
Пример двухуровневого двумерного вейвлет-преобразования ис­ходного изображения представлен на рис. 6.8 (стрелками показан ход преобразований, начиная от исходного изображения).
Представленное 2Б 'ЭД’Т реализуется матрицами вида [Даг83, КикОЭа]:
‘‘ТП'Х.П
1
л/2

'Ет/2®[1 1]‘

та Л = ——

~Еп,2®\\ 1]"

Ет/2<В>[1 —1]

и 72

Еп/2®[1-1]

(6.11)
где т и п — размеры матриц ЬиЕ, причем на первом уровне преобразования т = М и п = Ы, на втором уровне преобразования т - М/2, п - N/2 и т. д.; Ет/2 и Еп/2 — единичные матрицы
191



Рис. 6.8. Пример двухуровневого вейвлет-преобразования
порядков т/2 и га/2; <8> — знак прямого (кронекеровского) пере­множения матриц.
Верхние матрицы в выражении (6.11) являются матрицами масштаба («зсаИщг такпх»), а нижние — вейвлет-матрицами с ядром Хаара.
Довольно часто нас интересуют только изображения, образо­ванные «зсаНщг таЫх» и размещенные в верхнем левом углу результата вейвлет-преобразования. Эти изображения получены в результате низкочастотной фильтрации исходного изображения и процедуры прореживания по нечетным строкам и нечетным столбцам исходного изображения.
Попробуем модифицировать стандартную процедуру 2Т> ЮТ (с базисом функций Хаара) для получения изображений-клонов. При этом также используем стандартные механизмы фильтрации, а процедуру прореживания распространим и на нечетные строки и столбцы. Для этого в формировании матриц преобразования будем использовать только «зсаИпе таЪпх». Это позволит нам получить после первого уровня преобразования четыре изображения-клона, а после второго — 16 клонов и т. д.
Сформируем следующие две (левую и правую) матрицы моди­фицированного 2Б
Ет/2 вР 1]
(Ет/2®[1 1])(1^
» -^гах
Еы/2®Р- Ч
(Дп/2®[ 1 4>а_>)
, (6.12)
где тип — размеры матриц Ь и В, причем на первом уровне преобразования т = М и га = 2У, на втором уровне преобразования т = М/2, га = N/2 и т. д; -Ет/2> -^п/2 — единичные матрицы по­рядков т/2 и га/2 соответственно; <2> — знак прямого (кронеке­ровского) перемножения матриц; верхний индекс «(!—>)* означает
192
циклический сдвиг всех столбцов матрицы «масштаба» вправо на одну позицию.
Процедуры (6.12) в языке пакета МАТЬАВ представлены ниже:
СипсЪ1оп [Ь, Р] =чпаЬгххОЗ_Ш! (М,И) ;
М2=М/2; N2=11/2;
Н=кгоп(еуе(М2), [1,1] ) ; (6.13)
Ь=[Н; [Н(:,М) Н(:,1:М-1)]] ;
Н=кгоп(еуе(N2), [1,1]);
Р=[Н; [Н(:,М) Н(:,1:М-1)]],
где Н — рабочий массив размером (М/2)хМ или (N/2) хЛГ; еуе — единичные матрицы.
Пример матриц (6.12) для М = 8 (или N = 8) представлен на рис. 6.9. Эти матрицы уже не являются мономиальными, посколь­ку в каждой строке и каждом столбце содержат по два ненулевых элемента.
С использованием матриц (6.12) прямое н обратное преобра­зование — 2Б-«фильтрация + йочтзатрИщ*» н «фильтрация + ирватрНщг» — можно записать с точностью до нормирующих множителей следующим образом:
^^МхМ (Км*м)Г>
1 (6.14)
Г _ _ тТ г(с1опе) ту
*МхМ ^МхМ 1 МхМ ЛМхМ *
На рис. 6.10 представлен процесс вычисления изображений- клонов по процедуре (6.14). Здесь показано исходное изображение, левая и правая матрицы преобразования и результат — четыре изображения-клона.
Левая матрица
Правая матрица

1

1

0

0

0

0

0

0'




'1

0

0

0

0

0

0

1'

0

0

1

1

0

0

0

0




1

0

0

0

1

0

0

0

0

0

0

0

1

1

0

0




0

1

0

0

1

0

0

0

0

0

0

0

0

0

1

1




0

1

0

0

0

1

0

0

0

1

1

0

0

0

0

0




0

0

1

0

0

1

0

0

0

0

0

1

1

0

0

0




0

0

1

0

0

0

1

0

0

0

0

0

0

1

1

0




0

0

0

1

0

0

1

0

1

0

0

0

0

0

0

1




0

0

0

1

0

0

0

1







Рис. 6.9.

Пример матриц

определяемых по

(6.12) для М

= 1У

= 8




193



Результат
МхЛг
^ Г Исходное
МуМ изображение

Рис. 6.10. Пример получения четырех клонов на основе модификации 2Б \УТ
Если процедуру (6.14) применить два раза — к исходному изо­бражению, то получим 16 изображений-клонов. По аналогии с (6.14) это может быть представлено следующим образом:
“ —^МхМ^МхМ ^Мх#[Ямхм]Т)[-йМхЛг]:Г;
16
^АГхАГв) “ ТТ^МхМ^Мхм) 1Мхи№мхмВмхм)Т•
(6.15)
16
Результат в соответствии с выражениями (6.15) для параметра Б8 = 4 представлен на рис. 6.11.
Рис. 6.12, а дополняет представление процедуры (6.15) для параметра Б8 = 4. Здесь показано: а — исходное изображение, а также левая и правая матрицы преобразования процедуры (6.15), б — промежуточный результат; в — изображение-результат (филь­трация + «болупватрИщ*») и а — результат обратного преобразова­ния (фильтрация + «ирзатрНщ*»). На результате обратного пре­образования отчетливо виден «след» низкочастотной фильтрации, реализуемый «8са1ш§ тайхк
Исходное изображение Результат 1 Результат 2

Рис. 6.11. Пример получения 16 изображений-клонов на основе (6.15)
194

а)
ТНе 1еЦ Хгапз/огт таМх Расе 1таре 1/1 Тке Н§Ы 1гапз/огтп тпаМх


б) в) г)
1п1егтей1а1е КезиИ ЬоитзатрИпр ВезиН ВезиИ 17р8атрИп§
а
1пиегзе Тгапз/огтаНоп
Рис. 6.12. Реализация процедуры (6.15) для параметра Л8 = 4



Если требуется, то полученные матрицы-клоны нужно будет трансформировать в векторную форму. В некоторых случаях это позволит реализовать все вычисления в рамках операций над век­торами.
Отметим, что достоинства и недостатки метода клонирования по процедуре 8е-"\У аналогичны достоинствам и недостаткам метода клонирования по процедуре Sc-DS. Однако процедура 8с-\У позволяет получить более контрастные изображения-клоны и дополнительно «сглаженные» в результате низкочастотной фильтрации.
Реализация подхода П2 (К ап дот)
В основе этого подхода лежит идея, впервые представленная в работе [Беч99] и развитая в работах [Кух0б, Кух07, КикОБс, Гог07]. Представим две процедуры, в рамках которых можно реализовать эту идею.
195
Первая процедура основана на генераторе Р (Р « МЛГ) равномерно распределенных случайных чисел (с параметрами 0, 1), которые перемасштабируются до значений, соответствующих размерам исходного изображения с округлением до целого, не выходящим за значения М и N. Полученные таким образом случайные числа определяют координаты Р пикселей на исходном изображении, значения яркости которых будут определять совокупность признаков, представляющих исходное изображение. Далее этот «случайный» порядок выбора координат сохраняется и применяется ко всем исходным изображениям как на этапе создания эталонов, так и на этапе распознавания новых изображений лиц.
Вторая процедура основана на определении р случайных линий на области лица и выборе б случайных точек на каждой линии. В отличие от первой процедуры здесь вводятся две новые опе­рации — сортировки и поправки сдвига. Сортировка позволяет «разместить» выбранные пиксели на ломаной линии в порядке увеличения (уменьшения) значений координат. Поправка сдвига корректирует размещение линий в центре исходного изображения (на области лица), а не на фоновой его части. Для обеспечения наи­лучшего размещения этих линий на области лица нужно генери­ровать четыре варианта линий, имеющих следующие генеральные направления (рис. 6.13, а—г): с левого нижнего угла до правого верхнего (а); с левого верхнего угла до правого нижнего (б); почти вдоль оси X (в); почти вдоль оси У (г). Звездочками отмечено по­ложение выбранных координат.
На рис. 6.14 показано случайное размещение координат пик­селей, соответствующих параметрам р = 10 и б = 20, на трех различных ракурсах одного и того же лица. Значения яркости пикселей, соответствующих этим координатам на каждой области лица, сводятся далее в отдельный вектор исходных признаков.
а) б) в) г)

Рис. 6.13. К объяснению процедуры выбора р линий и й точек на них
196

Рис. 6.14. Варианты выбора координат пикселей на изображениях
Выполненные эксперименты показывают, что в данном случае взаимная корреляция между всеми парами (1-й и 2-й, 1-й и 3-й, а также 2-й и 3-й) векторов признаков была не ниже 0,9. Этот факт свидетельствует о возможности использования подхода П2 для представления лиц в задачах распознавания при некоторых, относительно небольших, изменениях ракурса лиц по оси У. На­верное, не составит особого труда подтвердить те же факты и при изменениях ракурса лиц по оси Хи2.
Достоинства подхода П2 можно представить следующим об­разом.
Размещение выбранных случайным образом координат (пик­селей) таково, что только малая их часть попадает на область глаз, ресниц и губ, т. е. на области с большим градиентом изменения яркости. Большая их часть размещена на «открытых» участках кожи лица. В этом случае небольшой поворот головы по осям X, У и2 существенно не изменяет значений яркости выбранных пик­селей. А это создает предпосылку для лучшего распознавания лиц в условиях их относительно небольших поворотов относительно всех трех осей.
Выбранные признаки сохраняют исходную категорию (в дан­ном случае — яркость пикселей), что может быть важным в про­цессе дальнейшей обработки.
Координаты, сгенерированные для одних значений М и А (размеров исходных изображений), легко перемасштабируются на любые другие значения М и Ы, что также важно для практики распознавания изображений лиц.
Описанный подход прост в реализации и поэтому может быть широко использован в задачах распознавания при ограниченных ресурсах (памяти и быстродействия) используемых технических средств.
197
Реализация подхода ПЗ (БРТ и БСТ)
В подходе ПЗ исходное изображение представляется набором пространственно-спектральных признаков результата дискретного ортогонального (или унитарного) преобразования (ДОП). Наибо­лее часто в задачах распознавания лиц в качестве ДОП приме­няются дискретное преобразование Фурье и дискретное косинус- преобразование (ПЕТ и ВСТ).
Использование ИРТ основывается на том, что двумерное БЕТ позволяет получить пространственно-спектральные признаки (как абсолютное значение спектра), инвариантные относительно цикли­ческого сдвига области лица в поле всего изображения. При этом для точной реконструкции области лица достаточно 20 простран­ственных спектральных компонент результата БЕТ [Кух01], т. е. всего 20 х 20 = 400 спектральных компонент. С учетом свойства горизонтальной симметрии спектра двумерного БЕТ размерность Б1М вектора признаков может составить не более 200 компо­нент.
Формирование вектора признаков из спектральных компонент результата двумерного БЕТ исходного изображения основывается на известном соотношении [Прэ82]:
С(р,г) = аЬа|—^ X Х(т>га)ехр(-&пехр{-]2п1,
[мх т=0 п=о у Я) К
(6.16)
где С(р, г) — спектральная компонента с координатами риг;
Р = 0, 1, 2 Р- 1; V г =
0, 1, 2 В/2
N-1, N-2, ...,
N - В/ 2 :
; Х(тп, п) —
пиксель исходного изображения с координатами тп и п; Р, В — параметры спектрального окна; М, N — число строк и число столбцов в исходном изображении.
Наиболее известные способы представления спектра 2В БЕТ для цифрового изображения приведены на рис. 6.15, а—г [а — ис­ходное изображение размера М хЫ; б — спектр, представленный матрицей размера М х Ы; в — результат циклического сдвига спектра (см. рис. 6.15, б) на половину размеров М и Ы; г — ци­клически сдвинутый спектр, представленный в форме ЗБ].
Если отобразить координаты р и г из соотношения (6.16) на ци­клически сдвинутый спектр БЕТ, показанный на рис. 6.15, в, то «спектральное окно» с этими координатами разместится в нижней
198



Рис. 6.15. Цифровое изображение и формы представления его спектра
половине спектральной матрицы, непосредственно на горизонталь­ной линии симметрии и под ней, и симметрично относительно вер­тикали. Этот и другие возможные варианты выбора спектральных компонент в вектор признаков представлены на рис. 6.16, а—в.
Практическая реализация двумерного БЕТ (2В БЕТ). Особен­ности двумерного БЕТ покажем с использованием матричных опе­раций, достаточно просто и непосредственно реализуемых про­граммно в языках высокого уровня и многих математических пакетах программ (примером чего являются, например, пакеты МАТЬАВ, МАТСАБ и 1АВУ1Е1У).
Основные детали реализации 2В БЕТ представим с использо­ванием матричных операций и арифметики только действитель­ных чисел. Для этого запишем 20 БЕТ в следующей матричной форме:
Срхр = РрхМ^-МхЫ^Ихр’ (6-17)
где ХМхЛг — матрица, представляющая исходное изображение с лицом; М хИ,рхр, р хМ к N хр — размеры соответствующих матриц; Срур — матрица, представляющая результат 2В БЕТ; р — параметр, определяющий порядок матрицы-результата; Ррх^ и Рмхр — матрицы Фурье-преобразования, причем:
Рис. 6.16. Варианты селекции спектральных компонент
199






4

(0%

1
о^;
3







®]\Г

... о*-1

■^ЛГхр




®1г

... «г»




,®!у




(м-гир-ч ... <0^ ^




°|

®м

0
®ЛГ




®м

®м

®М-1

РрхМ ~

®м

®м

... «&*-’>




1
3
8?° •

®Г>

...

= ехр
. 2я
—] — Ь
1 N
соз
г**ь'
®М
I -2п т ехр -] — Ь
1 М
N
2п
= соз —Ь
М
-)вЫ\Щь
Матрицы преобразования в выражении (6.17) состоят из реальной и мнимой частей: РрхМ = Р™1^ - ]Рр™$ и РМхр = Р^р ~ >
поэтому матрицу-результат можно записать в следующей форме:
Р _ ргеа1 _ у-лтае °рхр ~ '-'рхр ]^рхр •
Из этого следует, что результат в соотношении (6.16) в ариф­метике действительных чисел примет вид:
С
геа1 «(соз) у «(соз) «(вш) у г{91п),
рхр ~ ^рхМ^МхЫ^Нхр “ рхМ ^ М хЫ * N х р ’
п(СО&) у «(вш) , «(вш) "у гт(сОв)
рхр ~ ^рхМ^МхЫ^Ыхр + ■ерхМл-МхМ*Мхр ’
На рис. 6.17 представлена схема реализации двумерного БЕТ по соотношениям (6.18). Абсолютное значение результата 2Б БЕТ получим по соотношению
С рхр = аЪв (Срхр) = ^(С^) + (С™^)2. (6.19)
Если при реализации 2Б БЕТ есть возможность использовать арифметику комплексных чисел, то вычисление комплексных
200



/^геа1 _ Ет(соа) -у- р(со8) р(аш) у г»<8ш)
^рхр *рхМ^МхИ^Ихр *рxМ^Л'МxN■рNxр
Рис. 6.17. Схема реализации 2Б БГТ в арифметике действительных чисел
матриц преобразования Р^ур и Ррхм и само преобразование вы­полняются аналогичным образом.
Если используются все элементы матрицы-результата, то их число составит р2. Значения спектра довольно быстро уменьшаются в направлении главной диагонали матрицы-результата. Поэтому при формировании признаков из матрицы-результата (6.19) обыч­но используются компоненты из верхнего левого угла матрицы- результата. Самый простой способ — это последовательный выбор элементов со всех дополнительных диагоналей матрицы-результата (1,1; 1,2; 2,1; 1,3; 2,2; 3,1 и т. д. вплоть до элементов дополни­тельной диагонали) и запись их в вектор. Соответствующая этому алгоритму программа на языке пакета МАТЛАБ представлена ниже:
гипсЫоп [ЫЦЕ,0] = 2162А6_№ЭТТ (р,С)
% С — входная матрица (результат 20 ОРТ);
% р — число обрабатываемых диагоналей;
% р ^ порядка матрицы С;
% ЬШЕ — вектор спектральных признаков;
% О - размер вектора, где 0=р(р+1)/2.
%
бек=0;
Тог у = 1:р Тог к = у:-1:1 Тек=Тек+1;
ЬШЕ (бек) =С (у+1-к, к) ; епб; епб.
201
Первая компонента в векторе признаков определяет среднее зна­чение яркости исходного изображения, если матрица С определяет результат 2Б ОРТ этого изображения. Исключение этой компонен­ты позволяет сделать вектор признаков более «чувствительным» к структурным параметрам изображения (в частности, к форме и параметрам области лица), а не к его яркости.
Довольно часто в пакетах цифровой обработки сигналов и изо­бражений (и соответственно в цифровых процессорах сигналов, реализующих задачи FaReS) ПЕТ реализуется на основе процедур быстрого преобразования Фурье (Е’авЪ Гоипег Тгапз^огш — ГЕТ) [Даг83]. При этом матрица-результат преобразования 2Т) ЕЕТ будет иметь размер, равный размеру исходного изображения, и может быть также представлена в комплексной форме. Поэтому ее надо будет привести к виду и размеру (6.18).
Использование ИСТ основывается на том, что базисные функции соз-преобразования являются наилучшими (в смысле минимума потерь) для аппроксимации собственных функций, вычисленных для генеральной совокупности (больших наборов) цифровых изо­бражений [Прэ82]. Учитывая этот факт, можно полностью исклю­чить предобработку исходных изображений в рамках РСА/КЬТ в Е’аКеВ, заменив ее более простым соз-преобразованием. При этом соз-преобразование достаточно точно представляет исходные изо­бражения с лицами малым числом признаков — спектральных компонент БСТ. Последнее основано на том, что энергетически значимые спектральные компоненты БСТ концентрируются в этом случае в левом верхнем углу матрицы — результата БСТ. Для от­носительно точной реконструкции области лица достаточно также не более 20 пространственных спектральных компонент, выбран­ных из верхнего левого угла спектра.
Формирование вектора признаков из спектральных компонент результата БСТ исходного изображения основывается на соот­ношении:
ч | ч 71(2771 + 1)р я(2д + 1)о]
С(р, г) = <араг 2_, 2-! Х(т,п) соа соз-
I т=0 п=О
2 М

_ [\/у[м, Ир = 0 _ [1 /л/лг, И т* = 0
Р У2/М, 1 < р < Р — 1 Г \у12/Й, 1 < г < Н-1
(6.20)
где С(р, г) — спектральная компонента с координатами риг; Х(т, п) — пиксель исходного изображения с координатами т и тг; Р, Е — параметры спектрального окна; М, N — число строк и число столбцов в исходном изображении.
202
Если отобразить координаты ригиз соотношения (6.20) на матрицу — результат БСТ, то спектральное окно с этими коорди­натами разместится в левом верхнем квадрате. В результирующий вектор признаков записываются все значения спектральных ком­понент из левого верхнего угла этого квадрата, кроме, возможно, компоненты С(0, 0), определяющей среднее значение яркости ис­ходного изображения. Исключение компоненты С(0, 0) позволяет получить вектор признаков более «чувствительный» к форме и параметрам области лица, а не к яркости исходного изображения. Дополнительно нормируя весь вектор признаков на скаляр л/МЫ, можно элиминировать влияние размера исходного изображения на значения его компонентов.
Отметим одну важную особенность спектра (6.20). Двумерное БСТ позволяет получить пространственно-спектральные признаки (как абсолютное значение спектра), инвариантные относительно зеркально-симметричного поворота головы влево и/или вправо на исходном изображении. Это подтверждается результатом, пред­ставленным на рис. 6.18, а—г.
На рис. 6.18, а, в показаны два изображения лица, полученные из одного из них (исходного) путем его зеркальной симметрии (в). На рис. 6.18, б приведены графики, соответствующие обычным
а)
Исходное
изображение


аЬз (Сойпиа Тгапз/огт): ИеИа = 0
Зеркально­
симметричное
изображение
т>т<т"к1иу/
О 10 20 30 40 50 60
Рис. 6.18. Спектры 20 ОСТ для зеркально-симметричных изображений
203

(со знаком) спектрам 2Б БСТ для этих двух изображений. И, как следует из графиков, значения их не совпадают. На рис. 6.18, г показаны графики, соответствующие абсолютному значению спек­тров 2^ ОСТ для этих же изображений. Как видно из графика, значения их совпадают полностью. Таким образом, абсолютное значение спектра 20 ОСТ является инвариантом по отношению к зеркально-симметричным изображениям лиц. Заметим, что в практике распознавания лиц отмеченный факт инвариантности может также обеспечить лучшее распознавание лиц в условиях их поворотов относительно оси У даже при условии «не совсем точной* зеркальной симметрии.


Практическая реализация двумерного ОСТ (2Б БСТ). Опреде­лим 2И БСТ в следующей матричной форме:
СРхР = ТРхМХМхЫ^хР> (6.21)
где ХМхЛг — исходное изображение; РхР, РхМ, МхЫ и ЫхР — размеры соответствующих матриц; ТрхМ и Т!^хР — матрицы соз- преобразования, причем:
Лр. т) ТМ
1Р*М ~ \_гМ _|»
1/Тм,

р = 0; тп = 0, 1,
п(2т + \)р
2 М
-,Р = 1,
..., М-1;
..., Р-1; т = 0, 1, ..., М-1;
Лп,р)
ЧУ
ГАТхР -

\/4ы, /1 = 0, 1,
Г2~ л(2га + 1)р
./— соз— —
ПЛ/’ 2Ы
, N -1; р = 0;
га = 0, 1, ..., N -1; р =
1,
Р-1.
Матрица ТРхМ
Матрица ТЫхР

10
2 V-"™ 60
010080
Рис. 6.19. Матрицы БСТ-преобразования, представленные в форме ЗБ
204


СрхР ТРхМ



Р



^ЫхР
X
Рис. 6.20. Матричная схема реализации 2Б БСТ
Вид матриц Тр^ и ТМуР в форме ЗБ показан на рис. 6.19, а, б. Процесс реализации 2Б ЬСТ в матричной форме (6.21) представ­лен на рис. 6.20.
Заметим, что в матрице-результате СРхР выделены две обла­сти: в левом верхнем углу и в нижнем правом углу. Вектор 1ЮТ- признаков формируется из всех компонент верхнего левого угла матрицы СРхР [иногда за исключением компоненты С(1,1)]. При этом вектор БСТ-признаков будет содержать Р(Р + 1)/2—1 компо­нент. При выборе этих компонент используются метод, описанный в разделе «Реализация 2 Б ОРТ», и процедура «зигзаг».
Реализация подхода П4 (гистограммы изображений с лицами)
Гистограмма цифрового изображения представляет инфор­мацию о распределении частот уровней яркости изображения. В сравнении цифровых изображений между собой важным явля­ется форма гистограммы. Но повышенный интерес к гистограм­мам — как к способу представления информации об изображениях в задачах распознавания — основан на том, что форма гистограммы не изменяется, если исходное изображение будет повернуто (на плоскости) на любой угол или будет перемасштабировано вверх или вниз но любой из осей (или но двум осям сразу). Иными словами, гистограмма является инвариантом, представляющим изображение при его геометрических преобразованиях.
На рис. 6.21 приведены восемь изображений, семь из кото­рых получены из исходного изображения [ВюГО], отмеченного номером 1, путем его геометрических преобразований. Всем этим восьми изображениям может соответствовать одна и та же гисто­грамма, и эта особенность объясняется ниже.
205

Рис. 6.21. Изображения, имеющие одинаковые гистограммные признаки


Для изображений, повернутых на плоскости, а также изобра­жений, повернутых относительно одной из осей, одинаковость гистограмм вытекает из определения гистограммы. Для изображе­ний, имеющих разные размеры по осям, подобие их гистограмм вытекает из возможности их нормализации на число пикселей для каждого отдельного изображения. Для изображений, име­ющих разные размеры по осям и некоторые изменения текстуры, близость гистограмм достигается «грубой дискретизацией» всего интервала уровней яркости гистограммы (обычно 256) с усредне­нием значений внутри отдельных интервалов. Количество уров­ней дискретизации определяется параметром ВШ, и в заданиях распознавания изображений с лицами значение ВШ выбирается в пределах от 8 до 64.
На рис. 6.22, а, б показаны два изображения лиц, имеющие непропорциональное изменение размеров по осям — 286x384 (а) и 32x77 (б) — и некоторые изменения текстуры, связанные с вы­полненным перемаештабированием. Примеры соответствующих
206





Рис. 6.22. Изображения лиц и соответствующие им гистограммы
им гистограмм — 256 интервалов для исходного изображения (сплошная линия) и гистограмм для обоих изображений с В1И = 16 (столбики) — приведены под изображениями. Видно, что в обоих случаях эти пары гистограмм практически совпадают.
Таким образом, можно утверждать, что выбором соответству­ющего значения ВШ можно не только элиминировать влияние параметров изменения масштаба, но и ослабить влияние ракурса головы перед камерой на результат распознавания.
Вычисление одномерной гистограммы яркости исходного изо­бражения и сведение ее значений в вектор гистограммных при­знаков не вызывает трудностей: каждый у’-й элемент гистограммы НЦ) определяется количеством пикселей исходного изображения, имеющих значение яркости у = 0, 1, ..., 255.
Для признаков, определенных на интервале В1Ы, гистограмма Н(у) преобразуется в Н(Ь) по следующему правилу:
Н(Ъ) =

У=(Ь-1)
256
ВШ
Щ), Ь = 1,2,
вт.
(6.22)
Для изображений различных размеров, значения Н(Ь) норми­руются:
207



Рис. 6.23. Изображения лиц и нормированные гистограммы для них
^(Ь)Гт=^Г’ Ь = 1,2(6.23)
где М, N — число строк и число столбцов в исходном изображе­нии.
На рис. 6.23, а—г представлены четыре изображения лиц из базы ОКЬ и нормированные гистограммы для них для ВШ =16.
Отметим, что первые два лица принадлежат к одному и тому же человеку, а изображения б—г — разным людям. Гистограммы для изображений а и б подобны между собой по форме, в то время как гистограммы для изображений б, в иг существенно различны. Отметим также, что чем больше площадь фона вокруг области лица, тем заметнее различие гистограмм для разных изображе­ний лиц, даже при одном и том же фоне. Именно эти особенности гистограмм (подобие и различие форм) и простота их вычисления позволяют применять их в задачах распознавания в качестве ис­ходного вектора признаков для изображений лиц.
Гистограмма может быть использована также для сравнения двух изображений, в которых «выступают» некоторые небольшие изменения фона изображения, границ или отдельных элементов сцены (например, в последовательности видеоизображений при переходе от одного кадра к другому).
Обратимся к рис. 6.24, а, б, на котором показаны две пары кадров видеопоследовательности.
Разница между номерами кадров в каждой паре составляет 50, поэтому отчетливо видно, что головы дикторов на кадрах повер­нуты в разные стороны по отношению друг к другу, а во второй
208

Рис. 6.24. Изображения и соответствующие им яркостные гистограммы
паре (см. рис. 6.24, б) на левом кадре появилась надпись имени и фамилии диктора. Сравнение таких изображений методом «пик­сель по пикселю» может не подтвердить их подобия. Однако на этих изображениях нас интересуют только люди, а не изменение ориентации их головы или мимики лица.
Под каждой парой кадров помещены соответствующие им яр­костные гистограммы, рассчитанные для ВШ = 32: одна из ги­стограмм представлена в форме столбиков, а другая — сплошной линией. Легко увидеть при этом, что гистограммы практически совпадают межу собой, что может соответствовать только подобным между собой изображениям.
Анализируя представленные результаты использования яркост­ных гистограмм, можно отметить следующее: если сравнение двух относительно близких изображений выполняется на основе их яркостных гистограмм, то соответствующим выбором параметра ВШ можно подтвердить их подобие.
Однако следует помнить о том, что гистограммы представляют собой распределения уровней яркости цифрового изображения. Поэтому два текстурно или структурно одинаковых изображения, но имеющих разную относительную яркость, будут иметь раз­личные в общем случае по форме гистограммы: от циклического их сдвига по отношению друг к другу до циклического сдвига и дополнительных искажений на границах гистограмм.
Поэтому использование гистограммных признаков в ГаКеВ воз­можно только в случаях контроля условий освещенности в момент съемки при работе с видеокамерами или в условиях одинаковости средней яркости изображений, составляющих базу данных. За­метим при этом, что известные базы лиц — ВшГО, ОКЬ, Гасе94,
209

Рис. 6.25. Исходное изображение (а) и результаты его поворотов (б, в)
а также изображения типа «1а» и «1Ъ» базы ГЕКЕТ — удовлетво­ряют этим условиям (в базе ЕЕКЕТ каждому изображению группы «1а» соответствует только одно изображение группы «1Ъ», которые различаются между собой мимикой лица и небольшими измене­ниями ориентации головы).
Особенности использования гистограммных признаков. Если преобразования исходного изображения не выходят за рамки по­воротов и перемасштабирования с лицом, то свойство инвариант­ности гистограмм является несомненным достоинством для ЕаКеЗ, поскольку такая группа преобразований не повлияет на результат распознавания. Однако это не всегда так! И подтверждением этого является рис. 6.25 [\т\^ероеЬ11тез.ги/соп1епуу1елу/19912/6/], на котором приведено исходное изображение (а), а также это же изображение, повернутое на 90° (б) и 180° (в).
Гистограммы этих изображений одинаковы, однако семантиче­ски они совершенно разные. Исходное изображение представляет собой голову офицера, а изображение в — голову лошади. При этом изображение б представляет одновременно и голову офицера, и голову лошади.
Рассмотрим еще один пример, представленный на рис. 6.26. Здесь на рис. а приведены исходное изображение с лицом и это же изображение, повернутое на 180°. Четыре других изображения на рис. 6.26, б получены в результате перемещения отдельных блоков исходного изображения. Такие случаи часто встречаются при передаче потоков изображений через каналы трансмиссии. Ясно, что вариантов подобных геометрических преобразований можно реализовать и показать практически неограниченное ко­личество — перемещая, например, различным образом другие произвольные блоки или, например, все пиксели исходного изо­бражения. Ясно также и то, что гистограммы для всех этих изо-
210
а) б)

Рис. 6.26. Исходное изображение (а) и результаты его преобразований (б)
бражений будут одинаковыми, хотя на них будут представлены, в общем-то, различные изображения. Однако в данном случае свойство «инвариантности» гистограмм к таким преобразованиям является «плюсом» для FaReS, поскольку здесь фактически пред­ставлено одно и то же лицо.
А теперь ответим себе на вопрос: должна ли система распознава­ния воспринимать (распознавать) эти изображения как изображе­ния с одним и тем же лицом? Возможно, в специальных случаях (например, в криминалистике, составлении фотопортретов людей из разрозненных кусков фотоснимков) ответ будет утвердитель­ным. Однако в общем случае система поиска должна различать эти изображения, воспринимая только одно из них как «изображение с лицом», и именно то, которое находится на рис. 6.26, а, вверху.
Для решения поставленной проблемы попробуем изменить способ вычисления гистограмм, «вложив» в них некоторую ин­формацию о фоне (текстуре) исходного изображения. Для этого сделаем следующее: «разобьем» исходное изображение на и > 2 горизонтальных участков; вычислим гистограммы яркости для каждого из выделенных участков; соединим полученные гисто­граммы друг с другом в порядке следования участков и, таким образом, получим полную (составную) гистограмму для всего ис­ходного изображения.
Гистограмма на рис. 6.27, а получена для всего исходного изо­бражения со значениями и = 1 и ВШ = 64 и поэтому содержит 64 отсчета. Пример получения гистограммы для верхней и нижней половин исходного изображения показан на рис. 6.27, б. Здесь и = 2 и В1Ы1 = ВШ2 = 32, поэтому составная гистограмма также содержит 64 отсчета.
211

800
600


400
200
0
20 40 60
Рис. 6.27. Гистограммы для двух способов их получения
Оказывается, что система, использующая метод выделения при­знаков из изображений с лицами на основе построения составных гистограмм, не только решает поставленную задачу «различения» изображений, но и имеет лучшие показатели качества распозна­вания. Это подтверждают выполненные эксперименты, представ­ленные в табл. 6.1 [Кух07] для обычных и составных гистограмм с параметром и = 2.
В табл. 6.1 представлены следующие данные: значения ВШ, используемые в экспериментах; результаты распознавания изо­бражений лиц для первого (и = 1) и второго (и = 2) методов вы­числения гистограмм. Четвертая колонка показывает улучшение (в процентах) результата распознавания при использовании второ­го метода получения гистограммных признаков. Представленные результаты получены для 40 классов базы лиц ОКЬ и разделения
Таблица 6.1

вт

Результат распознавания, %

Улучшение распознавания, %

Вид гистограммы

полная

составная

8

88,5

88,0

-

16

90,5

92,5

2

32

91,0

94,5

3,5

64

89,0

95,5

6,5

128

90,5

96,0

5,5



212



Рис. 6.28. Исходные изображения (а, в) и результаты их распознавания (б, г)
10 образов в каждом классе на базовые/тестовые по варианту «5/5» со случайным выбором.
Далее будет показано, что гистограмма может быть использована для распознавания изображений, составленных из кусочков ис­ходных изображений, либо вообще «не сложенных в портрет», либо «сложенных в портрет». Пример таких исходных данных показан на рис. 6.28, а, в, а изображения, найденные системой распознавания по этим исходным данным, показаны на рис. 6.28, б, г.
Реализация подхода П5 (метод градиента в скользящем, окне)
Метод основан на процедуре сравнения двух зеркально рас­положенных полос шириной Ж > 1 пикселя, которые синхронно перемещаются (скользят) в выделенной области изображения лица с некоторым шагом <8 > 1. Полосы перемещаются в вертикаль­ном и/или в горизонтальном направлении, и на каждом шаге скольжения вычисляется расстояние между ними. При этом рас­стояние на каждом шаге скольжения можно рассматривать как градиент яркости между зеркально расположенными полосами. Все значения этих градиентов записываются в соответствующий вектор признаков.
Идею метода вычисления градиента в скользящем окне с получе­нием соответствующего вектора признаков поясняет рис. 6.29, а—е.
Здесь на рис. 6.29, а, г представлены два изображения лица одного и того же человека (база Б'асе94 [Гасе94]). Лица на этих изображениях отличаются мимикой, небольшим поворотом лица и направлением взгляда. В центральной области лиц выделе­ны две полосы шириной Ж, что соответствует некоторому шагу скольжения этих полос сверху вниз по каждому изображению.
213

а)
в)


С1азз/питЬег = 2/2

б)
РеаШге ЫРЕ



Рис. 6.29. Пояснения к методу формирования бинарных кодов
На рис. 6.29, б, д в графической форме приведены расстояния между полосами суть градиенты в скользящих окнах (Геа^иге ЫГЕ [КикОЭЬ]). Всего в данном примере было вычислено около 90 значений градиентов. Именно они и записываются в соответ­ствующий вектор признаков. Такой вектор представляет исходное изображение и используется в дальнейшим в ЕаКе8.
Прежде всего отметим внешнее сходство кривых, представ­ляющих эти градиенты. Фазовая корреляция между ними также подтверждает их сходство, что показано на рис. 6.29, в. В дан­ном случае коэффициент корреляции составил значение, близкое к 0,6, при значении 8КК > 60 (отношении сигнал/шум для кри­вой корреляции). Это является хорошим подтверждением подо­бия двух кривых градиентов. На кривые Геа1иге ЫГЕ нанесены линии средних значений градиентов, которые в обоих случаях близки к 8.
Теперь, если все значения ниже средней линии определить как «0», а выше средней линии — как «1», то из полученных «0» и
214
«1» можно сформировать некое подобие бинарного штрихкода, представляющего каждое исходное изображение. Такие бинар­ные коды показаны на рис. 6.29, е. Видно, что полученные коды практически одинаковы.
Теоретически такие бинарные коды должны быть одинаковыми для двух изображений, выровненных по размеру и линии глаз, но отличающихся поворотом влево и вправо по оси симметрии. Если реализовать скольжение полос в горизонтальном направлении по области лица, то теоретически можно получить одинаковые бинарные коды для лиц, отличающихся поворотом вверх-вниз. Отметим, что метод получения бинарных кодов изображений с лицами основан на алгоритмах, изложенных в гл. 2 при описании экспресс-методов определения линий симметрии на лицах. Алго­ритмы вычисления градиентов в обоих случаях подобны и поэтому здесь не повторяются. Другие примеры бинарных кодов для изо­бражений лиц приведены в гл. 5 (см. рис. 5.19). При сравнении двух изображений с лицами такие коды позволяют локализовать области отличий на этих изображениях.
6.3. МЕТОДОЛОГИЯ ОПИСАНИЯ ЭКСПЕРИМЕНТОВ
Адекватное представление исходного изображения в форме не­которого набора (матрицы или вектора) выбранных признаков является главным в задачах распознавания. Формально меру этой адекватности можно было бы выразить на основе различных ин­формационных оценок, представляющих исходные изображения с лицами и соответствующие им наборы признаков. Однако по­добные оценки могут быть малопригодными для практики рас­познавания изображений лиц. Очевидно также, что чем лучше выбранные признаки представляют исходные изображения с ли­цами, тем выше должен быть результат их распознавания в Га- КеЗ. В этой связи представляется необходимым решение задач компьютерного моделирования FaReS с оценкой их результатив­ности в рамках тестовых (бенчмарковых) баз изображений лиц и выбранных вариантов и категорий признаков. Если в выполненных экспериментах различные модели FaReS будут отличаться только способами экстракции признаков, то результативность ЕаКеЗ и ошибки распознавания ГАК и ГКК будут косвенно определять ранг обсуждаемой адекватности. И тут можно отметить, что чем выше результативность распознавания и ниже ошибки РАК и РКК для некоторого способа экстракции признаков, тем адекватнее этот ва­риант экстракции признаков представляет исходные изображения
215
Download 1,1 Mb.

Do'stlaringiz bilan baham:




Ma'lumotlar bazasi mualliflik huquqi bilan himoyalangan ©hozir.org 2024
ma'muriyatiga murojaat qiling

kiriting | ro'yxatdan o'tish
    Bosh sahifa
юртда тантана
Боғда битган
Бугун юртда
Эшитганлар жилманглар
Эшитмадим деманглар
битган бодомлар
Yangiariq tumani
qitish marakazi
Raqamli texnologiyalar
ilishida muhokamadan
tasdiqqa tavsiya
tavsiya etilgan
iqtisodiyot kafedrasi
steiermarkischen landesregierung
asarlaringizni yuboring
o'zingizning asarlaringizni
Iltimos faqat
faqat o'zingizning
steierm rkischen
landesregierung fachabteilung
rkischen landesregierung
hamshira loyihasi
loyihasi mavsum
faolyatining oqibatlari
asosiy adabiyotlar
fakulteti ahborot
ahborot havfsizligi
havfsizligi kafedrasi
fanidan bo’yicha
fakulteti iqtisodiyot
boshqaruv fakulteti
chiqarishda boshqaruv
ishlab chiqarishda
iqtisodiyot fakultet
multiservis tarmoqlari
fanidan asosiy
Uzbek fanidan
mavzulari potok
asosidagi multiservis
'aliyyil a'ziym
billahil 'aliyyil
illaa billahil
quvvata illaa
falah' deganida
Kompyuter savodxonligi
bo’yicha mustaqil
'alal falah'
Hayya 'alal
'alas soloh
Hayya 'alas
mavsum boyicha


yuklab olish