х
вектора наблюдений
X
придается некоторый неотрицательный «вес»
ω
k
, пропорциональный степени его важности:
(5.41)
Для определения весов
обычно требуется провести дополни-
тельные исследования с использованием обучающих выборок или
учета мнений экспертов, построением моделей.
При реализации кластер-процедур помимо расчета расстояний
между отдельными объектами проводится расчет расстояний между
образованными на некотором шаге процедуры кластерами. Расстоя-
ние между отдельными группами объектов определяется с помощью
следующих методов.
173
Метод одиночной связи
(«ближнего соседа»). Расстояние между
двумя группами
S
l
и
S
m
, измеряемое по правилу «ближнего соседа»
(«
nearest neighbour
») определяется как минимальное из всех расстоя-
ний между объектами этих групп
)
,
(
min
)
,
(
,
min
j
i
S
X
S
X
m
l
X
X
d
S
S
m
j
l
i
(5.42)
Метод полной связи
(«дальнего соседа»). Расстояние между
двумя группами
S
l
и
S
m
, измеряемое по правилу «дальнего соседа»
(«
furthest neighbour
») определяется как максимальное из всех рас-
стояний между объектами этих групп
)
,
(
max
)
,
(
,
max
j
i
S
X
S
X
m
l
X
X
d
S
S
m
j
l
i
(5.43)
Центроидный метод.
Расстояние, измеряемое по «центрам тя-
жести» групп, определяется как расстояние между средними арифме-
тическими групп
)
(
),
(
(
)
,
(
m
X
l
X
d
S
S
m
l
(5.44)
В зависимости от общего числа классифицируемых объектов все
задачи кластер-анализа делятся на два вида
46
. К первому виду отно-
сятся задачи классификации небольшого числа наблюдений, вклю-
чающих несколько десятков наблюдений. Ко второму виду относятся
задачи классификации больших массивов многомерных наблюдений,
включающих сотни и тысячи наблюдений. Для этих двух видов задач
используются различные типы кластер-процедур.
Выделяются три основных типа кластер-процедур:
процедуры иерархические, основанные на пересчете элемен-
тов матрицы расстояний ρ(Xi,Xj) и для больших выборок требующие
значительных вычислительных мощностей, поэтому они обычно ис-
пользуются в задачах с небольшим числом объектов;
процедуры параллельные, реализующиеся с помощью итера-
ционных алгоритмов, на каждом шаге которых происходит одновре-
менный расчет всех имеющихся объектов. Обычно используются в
задачах с небольшим числом объектов;
процедуры последовательные, на каждой итерации которых
производится расчет лишь по небольшой части наблюдений. После-
46
Айвазян С.А., Мхиатрян В.С. Прикладная статистика и основы эконометрики. Учебник для вузов. –
М.:ЮНИТИ, 1998. – 1022 с.
174
довательные процедуры быстро сходятся и могут быть использованы
для задач с большим числом объектов.
Do'stlaringiz bilan baham: |