Ын Анналин, Су Кеннет



Download 10,36 Mb.
Pdf ko'rish
bet21/90
Sana25.02.2022
Hajmi10,36 Mb.
#268392
1   ...   17   18   19   20   21   22   23   24   ...   90
Bog'liq
Теоретический минимум Big Data Всё, что нужно знать о больших данных

44
Глава 2
. 
Кластеризация методом k-средних
Сколько кластеров существует?
Это субъективно. Хотя на рис. 1 показано два кластера, 
они могут быть разбиты на кластеры поменьше. Напри-
мер, темный кластер можно разделить на подкластер 
«драмы» (включая Гордость и предубеждение и Клуб 
«Завтрак») и подкластер «фэнтези» (включая фильмы 
Монти Пайтон и священный Грааль и Скотт Пилигрим 
против всех).
По мере возрастания численности кластеров, члены каж-
дого из них становятся больше похожи друг на друга, но 
соседние кластеры при этом становятся менее различи-
мы. Если довести это до крайности, то каждый элемент 
данных окажется в отдельном кластере, что не даст нам 
никакой полезной информации.
Поэтому нужен компромисс. Число кластеров должно 
быть достаточно велико, чтобы позволить нам выявить 
важные для бизнес-решений закономерности, но не 
слишком, чтобы кластеры сохраняли отчетливые раз-
личия.
Одним из способов определить оптимальное количе-
ство кластеров является использование так называемого 
графика каменистой осыпи, или графика Кеттела (scree 
plot) (рис. 2).
График осыпи показывает, насколько снижается раз-
нообразие внутри кластеров при увеличении их числа. 
Если все члены отнесены к единственному кластеру, 


2.3. Определение кластеров
45
разнообразие максимально. Но по мере увеличения чис-
ла кластеров сами они становятся плотнее, а их члены 
однороднее.
0
1
2
3
4
5
6
7
8
9
10
Внутрикластерное разнообразие
Число кластеров
Рис. 2. График осыпи показывает изломы, из которых следует, 
что оптимальное число кластеров от 2 до 3
Излом — это острый изгиб на графике осыпи, который 
предлагает оптимальное число кластеров, исходя из раз-
умной степени внутрикластерного разнообразия. На 
рис. 2 мы видим излом на двойке, которая соответствует 
двум кластерам с фильмами на рис. 1. Другой излом, по-
меньше, находится на тройке, говоря о том, что мы можем 
ввести третий кластер с семейным кино. А вот введение 
еще большего их числа уже даст слишком малые класте-
ры, слабо отличающиеся друг от друга.



Download 10,36 Mb.

Do'stlaringiz bilan baham:
1   ...   17   18   19   20   21   22   23   24   ...   90




Ma'lumotlar bazasi mualliflik huquqi bilan himoyalangan ©hozir.org 2024
ma'muriyatiga murojaat qiling

kiriting | ro'yxatdan o'tish
    Bosh sahifa
юртда тантана
Боғда битган
Бугун юртда
Эшитганлар жилманглар
Эшитмадим деманглар
битган бодомлар
Yangiariq tumani
qitish marakazi
Raqamli texnologiyalar
ilishida muhokamadan
tasdiqqa tavsiya
tavsiya etilgan
iqtisodiyot kafedrasi
steiermarkischen landesregierung
asarlaringizni yuboring
o'zingizning asarlaringizni
Iltimos faqat
faqat o'zingizning
steierm rkischen
landesregierung fachabteilung
rkischen landesregierung
hamshira loyihasi
loyihasi mavsum
faolyatining oqibatlari
asosiy adabiyotlar
fakulteti ahborot
ahborot havfsizligi
havfsizligi kafedrasi
fanidan bo’yicha
fakulteti iqtisodiyot
boshqaruv fakulteti
chiqarishda boshqaruv
ishlab chiqarishda
iqtisodiyot fakultet
multiservis tarmoqlari
fanidan asosiy
Uzbek fanidan
mavzulari potok
asosidagi multiservis
'aliyyil a'ziym
billahil 'aliyyil
illaa billahil
quvvata illaa
falah' deganida
Kompyuter savodxonligi
bo’yicha mustaqil
'alal falah'
Hayya 'alal
'alas soloh
Hayya 'alas
mavsum boyicha


yuklab olish