Система была реализована в среде пакета МАТЛАБ с использованием встроенной в компьютер вэб-камеры. Результат работы системы по классификации текущего состояния глаз приведен на рис. 5.32, а, б.
Сделаем некоторые выводы. Задача оценки текущего психофизического состояния человека решена на примере определения состояния бодрствования и сна человека по его глазам. При этом показаны прикладные задачи, требующие оценки такого состояния человека, определены подходы для решения этой задачи, предложена структура системы для ее реализации, представлены алгоритмы ее функционирования. Предложенная система работает в рамках реального времени: реализуется наблюдение за текущим ракурсом лица человека, выполняется классификация состояния глаз (открыты/закрыты) и выполняется подсчет времени для этих состояний. В критических случаях система формирует сигналы тревоги и специальные предупреждающие сообщения.
В настоящей главе представлены методы распознавания изображений лиц «простыми FaReS» [Кух0б]. Такие FaReS содержат минимум функциональных блоков, что и отличает их от более сложных типов FaReS, содержащих в своей структуре блоки предобработки исходных данных, блоки детекции и нормализации лиц, блок редукции размерности пространства признаков и функционально развитую структуру компараторов и классификаторов.
6.1. ПОДХОДЫ К ЭКСТРАКЦИИ ПРИЗНАКОВ ИЗ ЦИФРОВЫХ ИЗОБРАЖЕНИЙ
На входе FaReS задано цифровое изображение, единственным (или наибольшим) объектом на котором является лицо человека. Далее будем исходить из того, что каждое изображение лица может быть представлено некоторым набором признаков и такое представление содержит всю необходимую информацию для дальнейшей ее обработки. Все операции в системе распознавания будут осуществляться далее только в этом пространстве признаков.
Если база данных FaReS содержит эталоны изображений лиц, представленные в форме соответствующих наборов признаков, а на входе FaReS задано выделенное изображение лица, то процесс, реализуемый простой FaReS, складывается всего из двух этапов:
Экстракции признаков—представления распознаваемого изображения лица в форме исходного набора признаков и, возможно, селекции некоторых признаков из исходного (полного) набора;
сравнения выбранного набора признаков с признаками эталонов и принятия решений о принадлежности исходного образа к одному из известных классов.
Структура FaReS представлена на рис. 6.1. Основными блоками FaReS являются: база эталонов, блок экстракции/селекции признаков (ЭП/СП) и компаратор. Исходные признаки для изображений с лицами определим в данном случае через яркостные значения их пикселей.
Итак, пусть на входе FaReS задано цифровое изображение, единственным (или наибольшим) объектом на котором является лицо человека. Размер изображения составляет пикселей.
Результат
Рис. 6.1. Структура FaReS
При использовании яркостных признаков для представления изображений с лицами размерность DIM вектора признаков (в результате конкатенации столбцов или строк исходного изображения) составит MN. Параметр DIM определяет размерность исходного пространства признаков. Например, для М=112 и N=92 (база лиц [ORL**]) DIM=10304.
Исходное изображение с лицом может быть представлено вектором (признаков) существенно меньшего, чем MN, размера на основе нескольких простых подходов, схематически отображенных на рис. 6.2 [Кух06, Кух07].
Подход 1 (П1). Уменьшим исходное изображение до размера тхп и выполним конкатенацию всех тп пикселей в вектор яркостных признаков (при этом и ). Здесь можно использовать, например, механизмы усреднения соседних пикселей (Scale), простые процедуры Downsampling или процедуры
Рис. 6.2. Варианты представления изображений лиц
низкочастотной фильтрации канала вейвлет-реобразования (Wawelet Transform [Lai01]). Условно эти подходы назовем «Sc-Scale», «Sc-DS» или «Sc-W».
Подход 2 (П2). Выберем «случайным» образом отдельные пиксели исходного изображения и сведем их в вектор яркостных признаков (с числом признаков от 200 до 400). При этом можно выбрать пиксели, равномерно распределенные по всему изображению лица, или пиксели, определенные р линиями, нанесенными на область лица, и д случайными точками на них [Dev99]. Этот подход назовем R — от англ. Random.
Подход 3 (ПЗ). Выполним некоторое дискретное (ортогональное) преобразование исходных изображений с формированием набора признаков из верхнего угла спектрального ядра (размер ядра , где ). Здесь, например, можно использовать двумерное дискретное преобразование Фурье или двумерное дискретное косинус-преобразование. Эти подходы определим как Spektrum DFT/DCT [Lai01,Haf01].
Подход 4 (П4). Вычислим гистограмму яркости исходного изображения и сведем ее значения в соответствующий вектор признаков [Tis97]. Вычислять можно также гистограмму, составленную из гистограмм верхней и нижней половин исходного изображения [Кух07]. При этом, если число уровней яркости каждой гистограммы задано параметром BIN, то размер вектора признаков в первом случае будет соответственно BIN , а во втором случае — ( ) , где . Эти подходы определим как Histogram.
Подход 5 (П5). Вычислим расстояние между двумя зеркально расположенными полосами шириной пикселя, «скользящими» по исходному изображению лица. Полосы могут «скользить» как в вертикальном направлении, так и в горизонтальном. Расстояние на каждом этапе скольжения можно рассматривать как градиент яркости между зеркально расположенными полосами. Все значения этих градиентов запишем в соответствующий вектор признаков. Этот подход определим как Gradient.
В подходах П1 и П2 исходное изображение представляется набором из категории физических признаков — яркостными признаками изображения. В подходах ПЗ — П5 исходное изображение представляется набором из категории математических признаков — спектральных, гистограммных и градиентных.
Системы распознавания лиц, использующие подобные методы экстракции признаков из изображений с лицами, были впервые представлены в [Lai01, Dev99, Haf01, Tis97] и исследованы в [Кух06, Кух07, КикОбс, Кик05c, For07]. Каждый из этих методов определяет признаки, обладающие некоторыми свойствами инвариантности, что будет показано и обсуждено ниже. Использование этих признаков при решении задач распознавания лиц показало высокое быстродействие соответствующих FaReS и относительно высокую их результативность при решении задач класса Face Retrieval [For07].
6.2. ПРОЦЕДУРЫ ЭКСТРАКЦИИ ПРИЗНАКОВ В FaReS
6.2.1. Реализация подхода П1 («Sc-Scale», «Sc-Dc» и «Sc-W»)
Этот подход выделения признаков наиболее известен и широко распространен в FaReS. Главной идеей здесь является уменьшение исходного изображения лица до размера тхв, при котором
, (6.1)
Где — размерность вектора признаков нового (уменьшенного) изображения. Выполняя далее конкатенацию всех пикселей уменьшенного изображения, получаем вектор признаков, представляющий это изображение. Поскольку в соответствии с требованиями стандарта [Bio04 и ГОСТ 0б] лицо на исходном изображении занимает не менее 80 % всей площади изображения, то можно считать, что вектор признаков представляет только это лицо.
Эффектом такого выбора признаков является уменьшение влияния на результат распознавания фона на границах области лица, а также небольших поворотов и смещений головы в исходном изображении. При этом уменьшение исходного изображения до размеров тип должно быть таким, чтобы полученные изображения были различимы между собой (обычно и ).
Процедура «Sc-Scale». Эта процедура выполняется как замена области, определенной квадратом со стороной I пикселей (1 = 2, 3, 5, ...) исходного изображения, одним пикселем со значением, равным среднему значению в этой области. При этом изображение- результат будет иметь размер . Схематически это показано на рис. 6.3, причем перевод результата в векторную форму не является обязательным.
Несомненным достоинством этого способа является относительная простота его реализации. Однако основной недостаток — это нарушение симметрии области лица на изображении-результате, что отчетливо видно на рис. 6.3.
Изображение
размером М хЫ
|
Замена выбранной области
ее средним значением
|
Результат
|
Рис. 6.3. Варианты представления изображений лиц
Процедура «Sc-DS». Этот способ уменьшения исходного изображения реализуется как процедура «downsampling» с получением изображений-клонов. Однако в практике обработки изображений лиц необходимо получить несколько изображений-клонов из одного и того же исходного изображения. В этом случае процедура «Sc-DS» реализуется как перестановка (переупорядочение) строк и столбцов исходной матрицы так, чтобы в одном месте собрались нечетные строки и столбцы, а в другом — четные строки и столбцы. Внутри этих собраний также выполняется аналогичная перестановка. В общем случае процедура «Sc-DS» реализуется как двумерная перестановка (двумерный «downsampling», или 2D DS). Процедура 2D DS и результат двумерной перестановки показаны на рис. 6.4 на примере числовой матрицы четвертого порядка с использованием двух (левой и правой) мономиальных матриц перестановок.
Если исходная матрица представляет собой изображение лица, то в результате выполнения первого шага процедуры 2D DS получим четыре новых изображения, соответствующих исходному изображению лица. Размер этих изображений будет равен половине размера исходного изображения лица. Эти изображения и есть изображения-клоны. Операция, обратная процедуре 2D DS, восстановит исходное изображение из этих клонов.
Рис. 6.4. Результат применения процедуры 2D «downsampling»
Пусть исходное изображение лица будет записано в форме матрицы размером . И пусть М и N — четные числа.
Сформируем две вспомогательные прямоугольные матрицы и так, что [Даг83, Kuk09a]:
н2х(М/2) ~
1 0 ... О
О ... О 1
М/2
И Я2х(ЛГ/2) “
1 0 ... О
О ... О 1 *
N/2
(6.2)
Сформируем теперь начальные матрицы перестановок — левую 4хм и правую Е^м:
4хМ “ [Я2х(М/2) °2х(М/2)1;
= [Я2х(АГ / 2) °2х(ЛГ / 2) ]>
(6.3)
где 02х(*) — нулевые матрицы размеров, определяемых нижними индексами.
Теперь сформируем рекуррентно следующие матрицы перестановок:
тИ)
^(21)хМ
»(о
п(21)хИ
(21-2)хМ
[°2х(1-1) Н2х(М/2) °2х((М/2)-1)]
Л(2г-2)хАГ
[°2хЦ-1) Н2х(И/2) °2х((2У/2)-1)1
, V 1 = 2, ..., М/2;
(6.4)
, V 1 = 2, ..., N/2.
В выражении (6.4) матрицы для граничных значений параметра итерации г соответствуют пустому множеству (или отсутствию этих матриц).
Соответствующая методу (6.4) процедура в языке пакета МАТЬАВ представлена ниже:
Гипс1:1оп [Ь, Р] =та1:г1хРЗ (М, И);
М2=М/2;
Н=гегоз(2,М2+1); Н(1,1)=1; Н(2,епй)=1;
Ь=[]; Еог к]=1:М2
Ь=[Ъ; [гегоз (2,^-1) Н гегоз (2,М2-к]) ] ] ; (6.5)
епй;
Ы2=Ы/2;
Н=гегоз(2,N2+1); Н(1,1)=1; Н(2,епй)=1;
К=[]; :Еог к]=1:Ы2
К=[К; [гегоз (2,^-1) Н гегоз (2,N2-^) ] ] ;
епй;
188
где Н — вспомогательные прямоугольные матрицы (6.2).
Теперь выполним процедуру 2Б Б8 матрицы 1д^хаг:
т(с1опе) _ (т(М/2),т , ЫМ/2)
1МхМ ~ ^МхМ > 1МхЫ лЛГх^ ’ (0.6)
в результате которой получим матрицу содержащую че
тыре клона.
Пример получения четырех клонов из исходного изображения лица приведен на рис. 6.5. Здесь также показан промежуточный результат — умножение исходной матрицы на правую матрицу перестановки. Левая матрица перестановки показана в транспонированной форме, что отвечает соотношению (6.6).
Белые точки в поле матриц перестановок соответствуют значению «1», а черный фон соответствуют значению «О*. Обратной к процедуре (6.6) будет операция 2Б «ирзатрИщ*»:
г — /2) Ис1опе) (Т)№ /2)\Т
1МхЫ - ьМхМ ^МхЫ (^ЛГх# ' » (6.7)
в результате которой из матрицы, содержащей четыре клона, получим матрицу исходного изображения. Пример этой операции показан на рис. 6.6.
Если процедуру 2Т) * йолупзатрИпд» применить два раза к исходному изображению, то получим 16 изображений-клонов. В матричной форме это может быть представлено следующим образом:
Рис. 6.5. 2Б «йслупнатрИпг»: пример получения четырех изображений-клонов
189
Рис. 6.6. 2Б «ирзатрИщг*: пример получения исходного изображения
из четырех клонов
1(м°ме) = (6-8)
или
г(с1опе) _Гг(М/2ЫМ/2)хГ г (Е^/2) о(#/2К
1МхN ~ УЪМхМ ЬМхМ > 1МхЫ У^ЫхИ пЫхN >’ (Ь.У)
где выражения в круглых скобках — результат перемножения мономиальных матриц перестановок.
Пример получения 16 изображений-клонов показан на рис. 6.7.
Если М и N являются двоично-рациональными числами, то пару 2Б-преобразований — «боАУпаашрИп^» и «ирзатрИщ*» для параметра Б8 — можно записать в следующей форме (число изображений-клонов в этом случае определяется как 2п8):
Г Ис1опе) _ и им / 2) да] ,т т (Я(М/ 2) да].
-№МхМ> -1 ^МхУ УпМхМ > »
’ т _/г(М/2)да] Ис1опе) [(п(Ы/2Ы08],Т (ЬЛ0)
^Мх!V - У^МхМ > 1МхЫ ^пМхМ > ^ »
Рис. 6.7. Пример получения 16 изображений-клонов
190
где параметр Б8 принимает значения, равные 1, 2, 4, 8, [1)5] —
означает степень матрицы.
Если требуется, то в некоторых случаях матрицы-клоны необходимо будет трансформировать в векторную форму, что отмечалось выше и было представлено на рис. 6.3.
Оценим теперь достоинства и недостатки метода.
Достоинствами являются:
простой способ генерации матриц проекции Ь, В и очень простая их структура, что можно использовать для их компактного хранения;
простой способ реализации процедур (6.10);
матрица-результат сохраняет исходную категорию признаков (в данном случае — яркость пикселей), что может быть очень важно в процессе дальнейшей обработки результата;
матрица-результат сохраняет семантику исходного изображения, что очень важно в задачах понимания и распознавания изображений человеко-машинными системами;
матрица-результат сохраняет симметрию исходного изображения, если М, N и р являются двоично-рациональными числами.
Недостатком метода является невозможность получения высокой степени редукции (например, в 100 раз и более).
Процедура «8с-Л^». Этот способ уменьшения исходного изображения реализуется на основе двумерного вейвлет-преобразования («Тауо ШтепшопаШу ^ауе1е1 Тгапз1огт» — 2Б ^7Т), которое часто используется в обработке и распознавании изображений [Ьа101]. В биометрии 2В используется для фильтрации исходных изображений с лицами, экстракции признаков из них, выделения границ лиц и границ областей на них и т. д.
Пример двухуровневого двумерного вейвлет-преобразования исходного изображения представлен на рис. 6.8 (стрелками показан ход преобразований, начиная от исходного изображения).
Представленное 2Б 'ЭД’Т реализуется матрицами вида [Даг83, КикОЭа]:
‘‘ТП'Х.П
1
л/2
'Ет/2®[1 1]‘
|
та Л = ——
|
~Еп,2®\\ 1]"
|
Ет/2<В>[1 —1]
|
и 72
|
Еп/2®[1-1]
|
(6.11)
где т и п — размеры матриц ЬиЕ, причем на первом уровне преобразования т = М и п = Ы, на втором уровне преобразования т - М/2, п - N/2 и т. д.; Ет/2 и Еп/2 — единичные матрицы
191
Рис. 6.8. Пример двухуровневого вейвлет-преобразования
порядков т/2 и га/2; <8> — знак прямого (кронекеровского) перемножения матриц.
Верхние матрицы в выражении (6.11) являются матрицами масштаба («зсаИщг такпх»), а нижние — вейвлет-матрицами с ядром Хаара.
Довольно часто нас интересуют только изображения, образованные «зсаНщг таЫх» и размещенные в верхнем левом углу результата вейвлет-преобразования. Эти изображения получены в результате низкочастотной фильтрации исходного изображения и процедуры прореживания по нечетным строкам и нечетным столбцам исходного изображения.
Попробуем модифицировать стандартную процедуру 2Т> ЮТ (с базисом функций Хаара) для получения изображений-клонов. При этом также используем стандартные механизмы фильтрации, а процедуру прореживания распространим и на нечетные строки и столбцы. Для этого в формировании матриц преобразования будем использовать только «зсаИпе таЪпх». Это позволит нам получить после первого уровня преобразования четыре изображения-клона, а после второго — 16 клонов и т. д.
Сформируем следующие две (левую и правую) матрицы модифицированного 2Б
Ет/2 вР 1]
(Ет/2®[1 1])(1^
» -^гах
Еы/2®Р- Ч
(Дп/2®[ 1 4>а_>)
, (6.12)
где тип — размеры матриц Ь и В, причем на первом уровне преобразования т = М и га = 2У, на втором уровне преобразования т = М/2, га = N/2 и т. д; -Ет/2> -^п/2 — единичные матрицы порядков т/2 и га/2 соответственно; <2> — знак прямого (кронекеровского) перемножения матриц; верхний индекс «(!—>)* означает
192
циклический сдвиг всех столбцов матрицы «масштаба» вправо на одну позицию.
Процедуры (6.12) в языке пакета МАТЬАВ представлены ниже:
СипсЪ1оп [Ь, Р] =чпаЬгххОЗ_Ш! (М,И) ;
М2=М/2; N2=11/2;
Н=кгоп(еуе(М2), [1,1] ) ; (6.13)
Ь=[Н; [Н(:,М) Н(:,1:М-1)]] ;
Н=кгоп(еуе(N2), [1,1]);
Р=[Н; [Н(:,М) Н(:,1:М-1)]],
где Н — рабочий массив размером (М/2)хМ или (N/2) хЛГ; еуе — единичные матрицы.
Пример матриц (6.12) для М = 8 (или N = 8) представлен на рис. 6.9. Эти матрицы уже не являются мономиальными, поскольку в каждой строке и каждом столбце содержат по два ненулевых элемента.
С использованием матриц (6.12) прямое н обратное преобразование — 2Б-«фильтрация + йочтзатрИщ*» н «фильтрация + ирватрНщг» — можно записать с точностью до нормирующих множителей следующим образом:
^^МхМ (Км*м)Г>
1 (6.14)
Г _ _ тТ г(с1опе) ту
*МхМ ^МхМ 1 МхМ ЛМхМ *
На рис. 6.10 представлен процесс вычисления изображений- клонов по процедуре (6.14). Здесь показано исходное изображение, левая и правая матрицы преобразования и результат — четыре изображения-клона.
Левая матрица
Правая матрица
1
|
1
|
0
|
0
|
0
|
0
|
0
|
0'
|
|
'1
|
0
|
0
|
0
|
0
|
0
|
0
|
1'
|
0
|
0
|
1
|
1
|
0
|
0
|
0
|
0
|
|
1
|
0
|
0
|
0
|
1
|
0
|
0
|
0
|
0
|
0
|
0
|
0
|
1
|
1
|
0
|
0
|
|
0
|
1
|
0
|
0
|
1
|
0
|
0
|
0
|
0
|
0
|
0
|
0
|
0
|
0
|
1
|
1
|
|
0
|
1
|
0
|
0
|
0
|
1
|
0
|
0
|
0
|
1
|
1
|
0
|
0
|
0
|
0
|
0
|
|
0
|
0
|
1
|
0
|
0
|
1
|
0
|
0
|
0
|
0
|
0
|
1
|
1
|
0
|
0
|
0
|
|
0
|
0
|
1
|
0
|
0
|
0
|
1
|
0
|
0
|
0
|
0
|
0
|
0
|
1
|
1
|
0
|
|
0
|
0
|
0
|
1
|
0
|
0
|
1
|
0
|
1
|
0
|
0
|
0
|
0
|
0
|
0
|
1
|
|
0
|
0
|
0
|
1
|
0
|
0
|
0
|
1
|
|
|
Рис. 6.9.
|
Пример матриц
|
определяемых по
|
(6.12) для М
|
= 1У
|
= 8
|
|
193
Результат
МхЛг
^ Г Исходное
МуМ изображение
Рис. 6.10. Пример получения четырех клонов на основе модификации 2Б \УТ
Если процедуру (6.14) применить два раза — к исходному изображению, то получим 16 изображений-клонов. По аналогии с (6.14) это может быть представлено следующим образом:
“ —^МхМ^МхМ ^Мх#[Ямхм]Т)[-йМхЛг]:Г;
16
^АГхАГв) “ ТТ^МхМ^Мхм) 1Мхи№мхмВмхм)Т•
(6.15)
16
Результат в соответствии с выражениями (6.15) для параметра Б8 = 4 представлен на рис. 6.11.
Рис. 6.12, а дополняет представление процедуры (6.15) для параметра Б8 = 4. Здесь показано: а — исходное изображение, а также левая и правая матрицы преобразования процедуры (6.15), б — промежуточный результат; в — изображение-результат (фильтрация + «болупватрИщ*») и а — результат обратного преобразования (фильтрация + «ирзатрНщ*»). На результате обратного преобразования отчетливо виден «след» низкочастотной фильтрации, реализуемый «8са1ш§ тайхк
Исходное изображение Результат 1 Результат 2
Рис. 6.11. Пример получения 16 изображений-клонов на основе (6.15)
194
а)
ТНе 1еЦ Хгапз/огт таМх Расе 1таре 1/1 Тке Н§Ы 1гапз/огтп тпаМх
б) в) г)
1п1егтей1а1е КезиИ ЬоитзатрИпр ВезиН ВезиИ 17р8атрИп§
а
1пиегзе Тгапз/огтаНоп
Рис. 6.12. Реализация процедуры (6.15) для параметра Л8 = 4
Если требуется, то полученные матрицы-клоны нужно будет трансформировать в векторную форму. В некоторых случаях это позволит реализовать все вычисления в рамках операций над векторами.
Отметим, что достоинства и недостатки метода клонирования по процедуре 8е-"\У аналогичны достоинствам и недостаткам метода клонирования по процедуре Sc-DS. Однако процедура 8с-\У позволяет получить более контрастные изображения-клоны и дополнительно «сглаженные» в результате низкочастотной фильтрации.
Реализация подхода П2 (К ап дот)
В основе этого подхода лежит идея, впервые представленная в работе [Беч99] и развитая в работах [Кух0б, Кух07, КикОБс, Гог07]. Представим две процедуры, в рамках которых можно реализовать эту идею.
195
Первая процедура основана на генераторе Р (Р « МЛГ) равномерно распределенных случайных чисел (с параметрами 0, 1), которые перемасштабируются до значений, соответствующих размерам исходного изображения с округлением до целого, не выходящим за значения М и N. Полученные таким образом случайные числа определяют координаты Р пикселей на исходном изображении, значения яркости которых будут определять совокупность признаков, представляющих исходное изображение. Далее этот «случайный» порядок выбора координат сохраняется и применяется ко всем исходным изображениям как на этапе создания эталонов, так и на этапе распознавания новых изображений лиц.
Вторая процедура основана на определении р случайных линий на области лица и выборе б случайных точек на каждой линии. В отличие от первой процедуры здесь вводятся две новые операции — сортировки и поправки сдвига. Сортировка позволяет «разместить» выбранные пиксели на ломаной линии в порядке увеличения (уменьшения) значений координат. Поправка сдвига корректирует размещение линий в центре исходного изображения (на области лица), а не на фоновой его части. Для обеспечения наилучшего размещения этих линий на области лица нужно генерировать четыре варианта линий, имеющих следующие генеральные направления (рис. 6.13, а—г): с левого нижнего угла до правого верхнего (а); с левого верхнего угла до правого нижнего (б); почти вдоль оси X (в); почти вдоль оси У (г). Звездочками отмечено положение выбранных координат.
На рис. 6.14 показано случайное размещение координат пикселей, соответствующих параметрам р = 10 и б = 20, на трех различных ракурсах одного и того же лица. Значения яркости пикселей, соответствующих этим координатам на каждой области лица, сводятся далее в отдельный вектор исходных признаков.
а) б) в) г)
Рис. 6.13. К объяснению процедуры выбора р линий и й точек на них
196
Рис. 6.14. Варианты выбора координат пикселей на изображениях
Выполненные эксперименты показывают, что в данном случае взаимная корреляция между всеми парами (1-й и 2-й, 1-й и 3-й, а также 2-й и 3-й) векторов признаков была не ниже 0,9. Этот факт свидетельствует о возможности использования подхода П2 для представления лиц в задачах распознавания при некоторых, относительно небольших, изменениях ракурса лиц по оси У. Наверное, не составит особого труда подтвердить те же факты и при изменениях ракурса лиц по оси Хи2.
Достоинства подхода П2 можно представить следующим образом.
Размещение выбранных случайным образом координат (пикселей) таково, что только малая их часть попадает на область глаз, ресниц и губ, т. е. на области с большим градиентом изменения яркости. Большая их часть размещена на «открытых» участках кожи лица. В этом случае небольшой поворот головы по осям X, У и2 существенно не изменяет значений яркости выбранных пикселей. А это создает предпосылку для лучшего распознавания лиц в условиях их относительно небольших поворотов относительно всех трех осей.
Выбранные признаки сохраняют исходную категорию (в данном случае — яркость пикселей), что может быть важным в процессе дальнейшей обработки.
Координаты, сгенерированные для одних значений М и А (размеров исходных изображений), легко перемасштабируются на любые другие значения М и Ы, что также важно для практики распознавания изображений лиц.
Описанный подход прост в реализации и поэтому может быть широко использован в задачах распознавания при ограниченных ресурсах (памяти и быстродействия) используемых технических средств.
197
Реализация подхода ПЗ (БРТ и БСТ)
В подходе ПЗ исходное изображение представляется набором пространственно-спектральных признаков результата дискретного ортогонального (или унитарного) преобразования (ДОП). Наиболее часто в задачах распознавания лиц в качестве ДОП применяются дискретное преобразование Фурье и дискретное косинус- преобразование (ПЕТ и ВСТ).
Использование ИРТ основывается на том, что двумерное БЕТ позволяет получить пространственно-спектральные признаки (как абсолютное значение спектра), инвариантные относительно циклического сдвига области лица в поле всего изображения. При этом для точной реконструкции области лица достаточно 20 пространственных спектральных компонент результата БЕТ [Кух01], т. е. всего 20 х 20 = 400 спектральных компонент. С учетом свойства горизонтальной симметрии спектра двумерного БЕТ размерность Б1М вектора признаков может составить не более 200 компонент.
Формирование вектора признаков из спектральных компонент результата двумерного БЕТ исходного изображения основывается на известном соотношении [Прэ82]:
С(р,г) = аЬа|—^ X Х(т>га)ехр(-&пехр{-]2п1,
[мх т=0 п=о у Я) К
(6.16)
где С(р, г) — спектральная компонента с координатами риг;
Р = 0, 1, 2 Р- 1; V г =
0, 1, 2 В/2
N-1, N-2, ...,
N - В/ 2 :
; Х(тп, п) —
пиксель исходного изображения с координатами тп и п; Р, В — параметры спектрального окна; М, N — число строк и число столбцов в исходном изображении.
Наиболее известные способы представления спектра 2В БЕТ для цифрового изображения приведены на рис. 6.15, а—г [а — исходное изображение размера М хЫ; б — спектр, представленный матрицей размера М х Ы; в — результат циклического сдвига спектра (см. рис. 6.15, б) на половину размеров М и Ы; г — циклически сдвинутый спектр, представленный в форме ЗБ].
Если отобразить координаты р и г из соотношения (6.16) на циклически сдвинутый спектр БЕТ, показанный на рис. 6.15, в, то «спектральное окно» с этими координатами разместится в нижней
198
Рис. 6.15. Цифровое изображение и формы представления его спектра
половине спектральной матрицы, непосредственно на горизонтальной линии симметрии и под ней, и симметрично относительно вертикали. Этот и другие возможные варианты выбора спектральных компонент в вектор признаков представлены на рис. 6.16, а—в.
Практическая реализация двумерного БЕТ (2В БЕТ). Особенности двумерного БЕТ покажем с использованием матричных операций, достаточно просто и непосредственно реализуемых программно в языках высокого уровня и многих математических пакетах программ (примером чего являются, например, пакеты МАТЬАВ, МАТСАБ и 1АВУ1Е1У).
Основные детали реализации 2В БЕТ представим с использованием матричных операций и арифметики только действительных чисел. Для этого запишем 20 БЕТ в следующей матричной форме:
Срхр = РрхМ^-МхЫ^Ихр’ (6-17)
где ХМхЛг — матрица, представляющая исходное изображение с лицом; М хИ,рхр, р хМ к N хр — размеры соответствующих матриц; Срур — матрица, представляющая результат 2В БЕТ; р — параметр, определяющий порядок матрицы-результата; Ррх^ и Рмхр — матрицы Фурье-преобразования, причем:
Рис. 6.16. Варианты селекции спектральных компонент
199
|
4
|
(0%
|
1
о^;
3
|
|
|
®]\Г
|
... о*-1
|
■^ЛГхр
|
|
®1г
|
... «г»
|
|
,®!у
|
|
(м-гир-ч ... <0^ ^
|
|
°|
|
®м
|
0
®ЛГ
|
|
®м
|
®м
|
®М-1
|
РрхМ ~
|
®м
|
®м
|
... «&*-’>
|
|
1
3
8?° •
|
®Г>
|
...
|
= ехр
. 2я
—] — Ь
1 N
соз
г**ь'
®М
I -2п т ехр -] — Ь
1 М
N
2п
= соз —Ь
М
-)вЫ\Щь
Матрицы преобразования в выражении (6.17) состоят из реальной и мнимой частей: РрхМ = Р™1^ - ]Рр™$ и РМхр = Р^р ~ >
поэтому матрицу-результат можно записать в следующей форме:
Р _ ргеа1 _ у-лтае °рхр ~ '-'рхр ]^рхр •
Из этого следует, что результат в соотношении (6.16) в арифметике действительных чисел примет вид:
С
геа1 «(соз) у «(соз) «(вш) у г{91п),
рхр ~ ^рхМ^МхЫ^Нхр “ рхМ ^ М хЫ * N х р ’
п(СО&) у «(вш) , «(вш) "у гт(сОв)
рхр ~ ^рхМ^МхЫ^Ыхр + ■ерхМл-МхМ*Мхр ’
На рис. 6.17 представлена схема реализации двумерного БЕТ по соотношениям (6.18). Абсолютное значение результата 2Б БЕТ получим по соотношению
С рхр = аЪв (Срхр) = ^(С^) + (С™^)2. (6.19)
Если при реализации 2Б БЕТ есть возможность использовать арифметику комплексных чисел, то вычисление комплексных
200
/^геа1 _ Ет(соа) -у- р(со8) р(аш) у г»<8ш)
^рхр *рхМ^МхИ^Ихр *рxМ^Л'МxN■рNxр
Рис. 6.17. Схема реализации 2Б БГТ в арифметике действительных чисел
матриц преобразования Р^ур и Ррхм и само преобразование выполняются аналогичным образом.
Если используются все элементы матрицы-результата, то их число составит р2. Значения спектра довольно быстро уменьшаются в направлении главной диагонали матрицы-результата. Поэтому при формировании признаков из матрицы-результата (6.19) обычно используются компоненты из верхнего левого угла матрицы- результата. Самый простой способ — это последовательный выбор элементов со всех дополнительных диагоналей матрицы-результата (1,1; 1,2; 2,1; 1,3; 2,2; 3,1 и т. д. вплоть до элементов дополнительной диагонали) и запись их в вектор. Соответствующая этому алгоритму программа на языке пакета МАТЛАБ представлена ниже:
гипсЫоп [ЫЦЕ,0] = 2162А6_№ЭТТ (р,С)
% С — входная матрица (результат 20 ОРТ);
% р — число обрабатываемых диагоналей;
% р ^ порядка матрицы С;
% ЬШЕ — вектор спектральных признаков;
% О - размер вектора, где 0=р(р+1)/2.
%
бек=0;
Тог у = 1:р Тог к = у:-1:1 Тек=Тек+1;
ЬШЕ (бек) =С (у+1-к, к) ; епб; епб.
201
Первая компонента в векторе признаков определяет среднее значение яркости исходного изображения, если матрица С определяет результат 2Б ОРТ этого изображения. Исключение этой компоненты позволяет сделать вектор признаков более «чувствительным» к структурным параметрам изображения (в частности, к форме и параметрам области лица), а не к его яркости.
Довольно часто в пакетах цифровой обработки сигналов и изображений (и соответственно в цифровых процессорах сигналов, реализующих задачи FaReS) ПЕТ реализуется на основе процедур быстрого преобразования Фурье (Е’авЪ Гоипег Тгапз^огш — ГЕТ) [Даг83]. При этом матрица-результат преобразования 2Т) ЕЕТ будет иметь размер, равный размеру исходного изображения, и может быть также представлена в комплексной форме. Поэтому ее надо будет привести к виду и размеру (6.18).
Использование ИСТ основывается на том, что базисные функции соз-преобразования являются наилучшими (в смысле минимума потерь) для аппроксимации собственных функций, вычисленных для генеральной совокупности (больших наборов) цифровых изображений [Прэ82]. Учитывая этот факт, можно полностью исключить предобработку исходных изображений в рамках РСА/КЬТ в Е’аКеВ, заменив ее более простым соз-преобразованием. При этом соз-преобразование достаточно точно представляет исходные изображения с лицами малым числом признаков — спектральных компонент БСТ. Последнее основано на том, что энергетически значимые спектральные компоненты БСТ концентрируются в этом случае в левом верхнем углу матрицы — результата БСТ. Для относительно точной реконструкции области лица достаточно также не более 20 пространственных спектральных компонент, выбранных из верхнего левого угла спектра.
Формирование вектора признаков из спектральных компонент результата БСТ исходного изображения основывается на соотношении:
ч | ч 71(2771 + 1)р я(2д + 1)о]
С(р, г) = <араг 2_, 2-! Х(т,п) соа соз-
I т=0 п=О
2 М
2И
_ [\/у[м, Ир = 0 _ [1 /л/лг, И т* = 0
Р У2/М, 1 < р < Р — 1 Г \у12/Й, 1 < г < Н-1
(6.20)
где С(р, г) — спектральная компонента с координатами риг; Х(т, п) — пиксель исходного изображения с координатами т и тг; Р, Е — параметры спектрального окна; М, N — число строк и число столбцов в исходном изображении.
202
Если отобразить координаты ригиз соотношения (6.20) на матрицу — результат БСТ, то спектральное окно с этими координатами разместится в левом верхнем квадрате. В результирующий вектор признаков записываются все значения спектральных компонент из левого верхнего угла этого квадрата, кроме, возможно, компоненты С(0, 0), определяющей среднее значение яркости исходного изображения. Исключение компоненты С(0, 0) позволяет получить вектор признаков более «чувствительный» к форме и параметрам области лица, а не к яркости исходного изображения. Дополнительно нормируя весь вектор признаков на скаляр л/МЫ, можно элиминировать влияние размера исходного изображения на значения его компонентов.
Отметим одну важную особенность спектра (6.20). Двумерное БСТ позволяет получить пространственно-спектральные признаки (как абсолютное значение спектра), инвариантные относительно зеркально-симметричного поворота головы влево и/или вправо на исходном изображении. Это подтверждается результатом, представленным на рис. 6.18, а—г.
На рис. 6.18, а, в показаны два изображения лица, полученные из одного из них (исходного) путем его зеркальной симметрии (в). На рис. 6.18, б приведены графики, соответствующие обычным
а)
Исходное
изображение
аЬз (Сойпиа Тгапз/огт): ИеИа = 0
Зеркально
симметричное
изображение
т>т<т"к1иу/
О 10 20 30 40 50 60
Рис. 6.18. Спектры 20 ОСТ для зеркально-симметричных изображений
203
(со знаком) спектрам 2Б БСТ для этих двух изображений. И, как следует из графиков, значения их не совпадают. На рис. 6.18, г показаны графики, соответствующие абсолютному значению спектров 2^ ОСТ для этих же изображений. Как видно из графика, значения их совпадают полностью. Таким образом, абсолютное значение спектра 20 ОСТ является инвариантом по отношению к зеркально-симметричным изображениям лиц. Заметим, что в практике распознавания лиц отмеченный факт инвариантности может также обеспечить лучшее распознавание лиц в условиях их поворотов относительно оси У даже при условии «не совсем точной* зеркальной симметрии.
Практическая реализация двумерного ОСТ (2Б БСТ). Определим 2И БСТ в следующей матричной форме:
СРхР = ТРхМХМхЫ^хР> (6.21)
где ХМхЛг — исходное изображение; РхР, РхМ, МхЫ и ЫхР — размеры соответствующих матриц; ТрхМ и Т!^хР — матрицы соз- преобразования, причем:
Лр. т) ТМ
1Р*М ~ \_гМ _|»
1/Тм,
р = 0; тп = 0, 1,
п(2т + \)р
2 М
-,Р = 1,
..., М-1;
..., Р-1; т = 0, 1, ..., М-1;
Лп,р)
ЧУ
ГАТхР -
\/4ы, /1 = 0, 1,
Г2~ л(2га + 1)р
./— соз— —
ПЛ/’ 2Ы
, N -1; р = 0;
га = 0, 1, ..., N -1; р =
1,
Р-1.
Матрица ТРхМ
Матрица ТЫхР
10
2 V-"™ 60
010080
Рис. 6.19. Матрицы БСТ-преобразования, представленные в форме ЗБ
204
СрхР ТРхМ
Р
^ЫхР
X
Рис. 6.20. Матричная схема реализации 2Б БСТ
Вид матриц Тр^ и ТМуР в форме ЗБ показан на рис. 6.19, а, б. Процесс реализации 2Б ЬСТ в матричной форме (6.21) представлен на рис. 6.20.
Заметим, что в матрице-результате СРхР выделены две области: в левом верхнем углу и в нижнем правом углу. Вектор 1ЮТ- признаков формируется из всех компонент верхнего левого угла матрицы СРхР [иногда за исключением компоненты С(1,1)]. При этом вектор БСТ-признаков будет содержать Р(Р + 1)/2—1 компонент. При выборе этих компонент используются метод, описанный в разделе «Реализация 2 Б ОРТ», и процедура «зигзаг».
Реализация подхода П4 (гистограммы изображений с лицами)
Гистограмма цифрового изображения представляет информацию о распределении частот уровней яркости изображения. В сравнении цифровых изображений между собой важным является форма гистограммы. Но повышенный интерес к гистограммам — как к способу представления информации об изображениях в задачах распознавания — основан на том, что форма гистограммы не изменяется, если исходное изображение будет повернуто (на плоскости) на любой угол или будет перемасштабировано вверх или вниз но любой из осей (или но двум осям сразу). Иными словами, гистограмма является инвариантом, представляющим изображение при его геометрических преобразованиях.
На рис. 6.21 приведены восемь изображений, семь из которых получены из исходного изображения [ВюГО], отмеченного номером 1, путем его геометрических преобразований. Всем этим восьми изображениям может соответствовать одна и та же гистограмма, и эта особенность объясняется ниже.
205
Рис. 6.21. Изображения, имеющие одинаковые гистограммные признаки
Для изображений, повернутых на плоскости, а также изображений, повернутых относительно одной из осей, одинаковость гистограмм вытекает из определения гистограммы. Для изображений, имеющих разные размеры по осям, подобие их гистограмм вытекает из возможности их нормализации на число пикселей для каждого отдельного изображения. Для изображений, имеющих разные размеры по осям и некоторые изменения текстуры, близость гистограмм достигается «грубой дискретизацией» всего интервала уровней яркости гистограммы (обычно 256) с усреднением значений внутри отдельных интервалов. Количество уровней дискретизации определяется параметром ВШ, и в заданиях распознавания изображений с лицами значение ВШ выбирается в пределах от 8 до 64.
На рис. 6.22, а, б показаны два изображения лиц, имеющие непропорциональное изменение размеров по осям — 286x384 (а) и 32x77 (б) — и некоторые изменения текстуры, связанные с выполненным перемаештабированием. Примеры соответствующих
206
Рис. 6.22. Изображения лиц и соответствующие им гистограммы
им гистограмм — 256 интервалов для исходного изображения (сплошная линия) и гистограмм для обоих изображений с В1И = 16 (столбики) — приведены под изображениями. Видно, что в обоих случаях эти пары гистограмм практически совпадают.
Таким образом, можно утверждать, что выбором соответствующего значения ВШ можно не только элиминировать влияние параметров изменения масштаба, но и ослабить влияние ракурса головы перед камерой на результат распознавания.
Вычисление одномерной гистограммы яркости исходного изображения и сведение ее значений в вектор гистограммных признаков не вызывает трудностей: каждый у’-й элемент гистограммы НЦ) определяется количеством пикселей исходного изображения, имеющих значение яркости у = 0, 1, ..., 255.
Для признаков, определенных на интервале В1Ы, гистограмма Н(у) преобразуется в Н(Ь) по следующему правилу:
Н(Ъ) =
У=(Ь-1)
256
ВШ
Щ), Ь = 1,2,
вт.
(6.22)
Для изображений различных размеров, значения Н(Ь) нормируются:
207
Рис. 6.23. Изображения лиц и нормированные гистограммы для них
^(Ь)Гт=^Г’ Ь = 1,2(6.23)
где М, N — число строк и число столбцов в исходном изображении.
На рис. 6.23, а—г представлены четыре изображения лиц из базы ОКЬ и нормированные гистограммы для них для ВШ =16.
Отметим, что первые два лица принадлежат к одному и тому же человеку, а изображения б—г — разным людям. Гистограммы для изображений а и б подобны между собой по форме, в то время как гистограммы для изображений б, в иг существенно различны. Отметим также, что чем больше площадь фона вокруг области лица, тем заметнее различие гистограмм для разных изображений лиц, даже при одном и том же фоне. Именно эти особенности гистограмм (подобие и различие форм) и простота их вычисления позволяют применять их в задачах распознавания в качестве исходного вектора признаков для изображений лиц.
Гистограмма может быть использована также для сравнения двух изображений, в которых «выступают» некоторые небольшие изменения фона изображения, границ или отдельных элементов сцены (например, в последовательности видеоизображений при переходе от одного кадра к другому).
Обратимся к рис. 6.24, а, б, на котором показаны две пары кадров видеопоследовательности.
Разница между номерами кадров в каждой паре составляет 50, поэтому отчетливо видно, что головы дикторов на кадрах повернуты в разные стороны по отношению друг к другу, а во второй
208
Рис. 6.24. Изображения и соответствующие им яркостные гистограммы
паре (см. рис. 6.24, б) на левом кадре появилась надпись имени и фамилии диктора. Сравнение таких изображений методом «пиксель по пикселю» может не подтвердить их подобия. Однако на этих изображениях нас интересуют только люди, а не изменение ориентации их головы или мимики лица.
Под каждой парой кадров помещены соответствующие им яркостные гистограммы, рассчитанные для ВШ = 32: одна из гистограмм представлена в форме столбиков, а другая — сплошной линией. Легко увидеть при этом, что гистограммы практически совпадают межу собой, что может соответствовать только подобным между собой изображениям.
Анализируя представленные результаты использования яркостных гистограмм, можно отметить следующее: если сравнение двух относительно близких изображений выполняется на основе их яркостных гистограмм, то соответствующим выбором параметра ВШ можно подтвердить их подобие.
Однако следует помнить о том, что гистограммы представляют собой распределения уровней яркости цифрового изображения. Поэтому два текстурно или структурно одинаковых изображения, но имеющих разную относительную яркость, будут иметь различные в общем случае по форме гистограммы: от циклического их сдвига по отношению друг к другу до циклического сдвига и дополнительных искажений на границах гистограмм.
Поэтому использование гистограммных признаков в ГаКеВ возможно только в случаях контроля условий освещенности в момент съемки при работе с видеокамерами или в условиях одинаковости средней яркости изображений, составляющих базу данных. Заметим при этом, что известные базы лиц — ВшГО, ОКЬ, Гасе94,
209
Рис. 6.25. Исходное изображение (а) и результаты его поворотов (б, в)
а также изображения типа «1а» и «1Ъ» базы ГЕКЕТ — удовлетворяют этим условиям (в базе ЕЕКЕТ каждому изображению группы «1а» соответствует только одно изображение группы «1Ъ», которые различаются между собой мимикой лица и небольшими изменениями ориентации головы).
Особенности использования гистограммных признаков. Если преобразования исходного изображения не выходят за рамки поворотов и перемасштабирования с лицом, то свойство инвариантности гистограмм является несомненным достоинством для ЕаКеЗ, поскольку такая группа преобразований не повлияет на результат распознавания. Однако это не всегда так! И подтверждением этого является рис. 6.25 [\т\^ероеЬ11тез.ги/соп1епуу1елу/19912/6/], на котором приведено исходное изображение (а), а также это же изображение, повернутое на 90° (б) и 180° (в).
Гистограммы этих изображений одинаковы, однако семантически они совершенно разные. Исходное изображение представляет собой голову офицера, а изображение в — голову лошади. При этом изображение б представляет одновременно и голову офицера, и голову лошади.
Рассмотрим еще один пример, представленный на рис. 6.26. Здесь на рис. а приведены исходное изображение с лицом и это же изображение, повернутое на 180°. Четыре других изображения на рис. 6.26, б получены в результате перемещения отдельных блоков исходного изображения. Такие случаи часто встречаются при передаче потоков изображений через каналы трансмиссии. Ясно, что вариантов подобных геометрических преобразований можно реализовать и показать практически неограниченное количество — перемещая, например, различным образом другие произвольные блоки или, например, все пиксели исходного изображения. Ясно также и то, что гистограммы для всех этих изо-
210
а) б)
Рис. 6.26. Исходное изображение (а) и результаты его преобразований (б)
бражений будут одинаковыми, хотя на них будут представлены, в общем-то, различные изображения. Однако в данном случае свойство «инвариантности» гистограмм к таким преобразованиям является «плюсом» для FaReS, поскольку здесь фактически представлено одно и то же лицо.
А теперь ответим себе на вопрос: должна ли система распознавания воспринимать (распознавать) эти изображения как изображения с одним и тем же лицом? Возможно, в специальных случаях (например, в криминалистике, составлении фотопортретов людей из разрозненных кусков фотоснимков) ответ будет утвердительным. Однако в общем случае система поиска должна различать эти изображения, воспринимая только одно из них как «изображение с лицом», и именно то, которое находится на рис. 6.26, а, вверху.
Для решения поставленной проблемы попробуем изменить способ вычисления гистограмм, «вложив» в них некоторую информацию о фоне (текстуре) исходного изображения. Для этого сделаем следующее: «разобьем» исходное изображение на и > 2 горизонтальных участков; вычислим гистограммы яркости для каждого из выделенных участков; соединим полученные гистограммы друг с другом в порядке следования участков и, таким образом, получим полную (составную) гистограмму для всего исходного изображения.
Гистограмма на рис. 6.27, а получена для всего исходного изображения со значениями и = 1 и ВШ = 64 и поэтому содержит 64 отсчета. Пример получения гистограммы для верхней и нижней половин исходного изображения показан на рис. 6.27, б. Здесь и = 2 и В1Ы1 = ВШ2 = 32, поэтому составная гистограмма также содержит 64 отсчета.
211
800
600
400
200
0
20 40 60
Рис. 6.27. Гистограммы для двух способов их получения
Оказывается, что система, использующая метод выделения признаков из изображений с лицами на основе построения составных гистограмм, не только решает поставленную задачу «различения» изображений, но и имеет лучшие показатели качества распознавания. Это подтверждают выполненные эксперименты, представленные в табл. 6.1 [Кух07] для обычных и составных гистограмм с параметром и = 2.
В табл. 6.1 представлены следующие данные: значения ВШ, используемые в экспериментах; результаты распознавания изображений лиц для первого (и = 1) и второго (и = 2) методов вычисления гистограмм. Четвертая колонка показывает улучшение (в процентах) результата распознавания при использовании второго метода получения гистограммных признаков. Представленные результаты получены для 40 классов базы лиц ОКЬ и разделения
Таблица 6.1
вт
|
Результат распознавания, %
|
Улучшение распознавания, %
|
Вид гистограммы
|
полная
|
составная
|
8
|
88,5
|
88,0
|
-
|
16
|
90,5
|
92,5
|
2
|
32
|
91,0
|
94,5
|
3,5
|
64
|
89,0
|
95,5
|
6,5
|
128
|
90,5
|
96,0
|
5,5
|
212
Рис. 6.28. Исходные изображения (а, в) и результаты их распознавания (б, г)
10 образов в каждом классе на базовые/тестовые по варианту «5/5» со случайным выбором.
Далее будет показано, что гистограмма может быть использована для распознавания изображений, составленных из кусочков исходных изображений, либо вообще «не сложенных в портрет», либо «сложенных в портрет». Пример таких исходных данных показан на рис. 6.28, а, в, а изображения, найденные системой распознавания по этим исходным данным, показаны на рис. 6.28, б, г.
Реализация подхода П5 (метод градиента в скользящем, окне)
Метод основан на процедуре сравнения двух зеркально расположенных полос шириной Ж > 1 пикселя, которые синхронно перемещаются (скользят) в выделенной области изображения лица с некоторым шагом <8 > 1. Полосы перемещаются в вертикальном и/или в горизонтальном направлении, и на каждом шаге скольжения вычисляется расстояние между ними. При этом расстояние на каждом шаге скольжения можно рассматривать как градиент яркости между зеркально расположенными полосами. Все значения этих градиентов записываются в соответствующий вектор признаков.
Идею метода вычисления градиента в скользящем окне с получением соответствующего вектора признаков поясняет рис. 6.29, а—е.
Здесь на рис. 6.29, а, г представлены два изображения лица одного и того же человека (база Б'асе94 [Гасе94]). Лица на этих изображениях отличаются мимикой, небольшим поворотом лица и направлением взгляда. В центральной области лиц выделены две полосы шириной Ж, что соответствует некоторому шагу скольжения этих полос сверху вниз по каждому изображению.
213
а)
в)
С1азз/питЬег = 2/2
б)
РеаШге ЫРЕ
Рис. 6.29. Пояснения к методу формирования бинарных кодов
На рис. 6.29, б, д в графической форме приведены расстояния между полосами суть градиенты в скользящих окнах (Геа^иге ЫГЕ [КикОЭЬ]). Всего в данном примере было вычислено около 90 значений градиентов. Именно они и записываются в соответствующий вектор признаков. Такой вектор представляет исходное изображение и используется в дальнейшим в ЕаКе8.
Прежде всего отметим внешнее сходство кривых, представляющих эти градиенты. Фазовая корреляция между ними также подтверждает их сходство, что показано на рис. 6.29, в. В данном случае коэффициент корреляции составил значение, близкое к 0,6, при значении 8КК > 60 (отношении сигнал/шум для кривой корреляции). Это является хорошим подтверждением подобия двух кривых градиентов. На кривые Геа1иге ЫГЕ нанесены линии средних значений градиентов, которые в обоих случаях близки к 8.
Теперь, если все значения ниже средней линии определить как «0», а выше средней линии — как «1», то из полученных «0» и
214
«1» можно сформировать некое подобие бинарного штрихкода, представляющего каждое исходное изображение. Такие бинарные коды показаны на рис. 6.29, е. Видно, что полученные коды практически одинаковы.
Теоретически такие бинарные коды должны быть одинаковыми для двух изображений, выровненных по размеру и линии глаз, но отличающихся поворотом влево и вправо по оси симметрии. Если реализовать скольжение полос в горизонтальном направлении по области лица, то теоретически можно получить одинаковые бинарные коды для лиц, отличающихся поворотом вверх-вниз. Отметим, что метод получения бинарных кодов изображений с лицами основан на алгоритмах, изложенных в гл. 2 при описании экспресс-методов определения линий симметрии на лицах. Алгоритмы вычисления градиентов в обоих случаях подобны и поэтому здесь не повторяются. Другие примеры бинарных кодов для изображений лиц приведены в гл. 5 (см. рис. 5.19). При сравнении двух изображений с лицами такие коды позволяют локализовать области отличий на этих изображениях.
6.3. МЕТОДОЛОГИЯ ОПИСАНИЯ ЭКСПЕРИМЕНТОВ
Адекватное представление исходного изображения в форме некоторого набора (матрицы или вектора) выбранных признаков является главным в задачах распознавания. Формально меру этой адекватности можно было бы выразить на основе различных информационных оценок, представляющих исходные изображения с лицами и соответствующие им наборы признаков. Однако подобные оценки могут быть малопригодными для практики распознавания изображений лиц. Очевидно также, что чем лучше выбранные признаки представляют исходные изображения с лицами, тем выше должен быть результат их распознавания в Га- КеЗ. В этой связи представляется необходимым решение задач компьютерного моделирования FaReS с оценкой их результативности в рамках тестовых (бенчмарковых) баз изображений лиц и выбранных вариантов и категорий признаков. Если в выполненных экспериментах различные модели FaReS будут отличаться только способами экстракции признаков, то результативность ЕаКеЗ и ошибки распознавания ГАК и ГКК будут косвенно определять ранг обсуждаемой адекватности. И тут можно отметить, что чем выше результативность распознавания и ниже ошибки РАК и РКК для некоторого способа экстракции признаков, тем адекватнее этот вариант экстракции признаков представляет исходные изображения
2158>2>8>
Do'stlaringiz bilan baham: |