178
Глава 6.
Кластеризация
методом k-средних
Обратите.внимание:.атрибуты.
name
.и.
year
.записываются.только.для.обозна-
чения.альбома.и.не.используются.при.кластеризации..Вот.пример.вывода.
результатов:
Converged after 1 iterations.
Cluster 0 Avg Length -0.5458820039179509 Avg Tracks -0.5009878988684237: [(Got
to Be There, 1972), (Ben, 1972), (Music & Me, 1973), (Forever, Michael, 1975),
(Off
the Wall, 1979), (Thriller, 1982), (Bad, 1987)] Cluster 1 Avg Length
1.2737246758085525 Avg Tracks 1.168971764026322: [(Dangerous, 1991), (HIStory:
Past, Present and Future, Book I, 1995), (Invincible, 2001)]
Представляют.интерес.вычисленные.средние.значения.кластеров..Обратите.
внимание.на.то,.что.средние.значения.являются.z-оценками..Три.альбома.из.
кластера.1.—.последние.в.творчестве.Майкла.Джексона.—.оказались.примерно.
на.одно.стандартное.отклонение.длиннее,.чем.в.среднем.остальные.семь.его.
сольных.альбомов.
6.5. ПРОБЛЕМЫ И РАСШИРЕНИЯ КЛАСТЕРИЗАЦИИ
МЕТОДОМ
k
-СРЕДНИХ
Когда.кластеризация.методом.
k
-средних.осуществляется.с.использованием.слу-
чайных.начальных.точек,.она.может.пропустить.все.полезные.точки.разделения.
данных..Это.часто.требует.множества.проб.и.ошибок.при.выполнении.операции..
Также.определение.правильного.значения.
k
.(количества.кластеров).сложно.
и.чревато.ошибками,.если.у.оператора.нет.четкого.представления.о.том,.сколько.
должно.быть.групп.данных.
Существуют.более.сложные.версии.алгоритма.
k
-средних,.в.которых.можно.
попытаться.сделать.обоснованные.предположения.или.выполнить.несколько.
автоматических.проб.(и.допустить.ошибки).при.определении.проблемных.пере-
менных..Один.из.распространенных.вариантов.—.это.метод.
k
-средних++,.который.
пытается.решить.проблему.инициализации,.выбирая.центроиды.не.совершенно.
случайно,.а.на.основе.распределения.вероятностей.расстояния.до.каждой.единицы.
данных..Еще.более.удачный.вариант.для.многих.приложений.—.выбор.хороших.
начальных.областей.для.каждого.центроида.на.основе.заранее.известной.инфор-
мации.о.данных,.иными.словами,.версия.метода.
k
-средних,.в.которой.начальные.
центроиды.выбирает.пользователь.алгоритма.
Время.выполнения.кластеризации.методом.
k
-средних.пропорционально.количе-
ству.единиц.данных,.количеству.кластеров.и.количеству.измерений.для.единиц.
данных..Если.имеется.множество.единиц.данных.с.большим.количеством.изме-
рений,.то.этот.алгоритм.в.своей.базовой.форме.может.оказаться.непригодным..
Существуют.расширения,.которые.пытаются.не.проводить.столько.вычислений.
6.6. Реальные приложения
179
для.каждой.единицы.данных.и.каждого.центроида,.оценивая,.действительно.ли.
эта.единица.данных.может.переместиться.в.другой.кластер,.прежде.чем.выполнять.
вычисление..Другой.вариант.для.наборов.с.многочисленными.единицами.данных.
или.с.большим.количеством.измерений.—.просто.сделать.выборку.единиц.данных.
методом.
k
-средних..Это.позволит.создать.приблизительный.набор.кластеров,.
которые.затем.сможет.уточнить.полный.алгоритм.
k
-средних.
Выбросы.в.наборе.данных.могут.привести.к.странным.результатам.работы.метода.
k
-средних..Если.первоначальный.центроид.окажется.рядом.с.выбросом,.то.он.
может.сформировать.кластер.из.одной.единицы.данных.(как.с.альбомом.
HIStory
.
в.примере.с.Майклом.Джексоном)..Метод.
k
-средних.может.работать.лучше,.если.
вначале.удалить.выбросы.
Наконец,.среднее.значение.не.всегда.считается.хорошим.показателем.для.центра..
В.методе.
k
-медиан.серединой.кластера.является.медиана.каждого.измерения,.
а.в.методе.
k
-медоидов.—.фактическая.единица.набора.данных..Для.выбора.каждого.
из.этих.методов.центрирования.существуют.статистические.причины,.выходящие.
за.рамки.этой.книги,.но.здравый.смысл.подсказывает,.что.для.сложной.задачи,.
возможно,.стоит.попробовать.каждый.из.них.и.выбрать.подходящие.результаты..
Реализации.всех.этих.методов.не.так.уж.и.различаются.
Do'stlaringiz bilan baham: