Keywords. Features, space, criterion, distance, decision rule, discrete optimization,
compactness, sampling, functional, informative feature.
Введение. Одним из ключевых вопросов машинной обработки
информации является формирование информативного описания тех объектов,
которые требуется идентифицировать, классифицировать или распознать.
Формирование информативных описаний, обнаружение значимых признаков
объектов предопределяет, в конечном итоге, успех всего исследования, позволяет
достичь двух обычно взаимно исключающих целей: повышения качества
распознавания или классификации (за счет устранения "шумящих" параметров) и
сокращения времени обработки (за счет уменьшения объема данных) [1].
Формирование информативного описания объектов в задачах анализа
данных представляет
по
существу
переход
от
исходной
системы
признаков
N
x
x
x
x
...,
,
,
2
1
к новой системе
z
z
z
z
...,
,
,
2
1
, включающей
меньшее число признаков
N
, чем исходная система [4-6]. Обычно новые
признаки формируются в виде функций от исходных признаков, т.е.
x
F
z
,
путем решения оптимизационной задачи. Последняя заключается в нахождении
такой системы признаков
z
, при которой
.
max
~
z
I
z
I
F
(1)
Здесь
z
I
заданная мера информативности
-мерной системы признаков
z
, а
F
класс допустимых преобразований исходных признаков
N
x
x
x
...,
,
,
2
1
,
который в общем случае может быть представлен одним из следующих типов
преобразований: линейный, нелинейный, дискретный, непрерывный, логический.
Таким образом, формирование информативного описания объектов можно
интерпретировать как отображение N-мерного вектора x в
-мерный вектор
z
,
которое в общем случае можно представить как
x
F
z
, где
F
-допустимое
преобразование, а
N
.
В докладе в качестве допустимых преобразований используется система
функций
1
i
i
i
z
f
x ; i
,N
,
(2)
я.
оставляетс
признак
если
,
1
я;
исключаетс
признак
если
,
0
i
i
i
x
x
x
f
В этом случае новая система признаков формируется как подмножество
множества исходных признаков.
В качестве меры информативности признаков используются эвристические
критерии, основанные на оценке меры разделимости объектов заданной
обучающей выборки с использованием евклидовой метрики [3,7].
Допустим,
обучающая
выборка
задана
объектами
r
rm
r
r
m
m
x
x
x
x
x
x
x
x
x
...,
,
,
...,
,
...,
,
,
,
...,
,
,
2
1
2
22
21
1
12
11
2
1
, для которых известно, что
каждая группа объектов
p
pm
p
p
x
x
x
...,
,
,
2
1
принадлежит к определенному классу
5
r
p
X
p
,
1
,
.
Каждый объект
pi
x
является N-мерным вектором числовых признаков, т.е.
N
pi
pi
pi
pi
x
x
x
x
...,
,
,
2
1
.
Для
заданной
обучающей
выборки
объектов
r
p
X
x
x
x
p
pm
p
p
p
,
1
,
...,
,
,
2
1
, где
pi
x
- вектор в N-мерном признаковом
пространстве, введем вектор
N
...,
,
,
2
1
,
N
k
k
,
1
,
1
;
0
, который
однозначно характеризует определенную подсистему признаков. Компоненты
вектора
, равные единице, указывают на наличие соответствующих признаков в
данной подсистеме, а нулевые компоненты свидетельствуют об отсутствии
соответствующих признаков.
Пространство признаков
N
x
x
x
x
...,
,
,
2
1
будем считать евклидовым
и обозначим через
N
R
.
Do'stlaringiz bilan baham: |