Ын Анналин, Су Кеннет



Download 10,36 Mb.
Pdf ko'rish
bet24/90
Sana25.02.2022
Hajmi10,36 Mb.
#268392
1   ...   20   21   22   23   24   25   26   27   ...   90
Bog'liq
Теоретический минимум Big Data Всё, что нужно знать о больших данных

2.5. Краткие итоги

Кластеризация методом k-средних — это способ сгруп-
пировать вместе похожие элементы данных. Число 
этих кластеров k должно быть указано заранее.

Для группировки элементов данных сначала каждый 
из них соотносится с кластером, а потом обновляются 
позиции кластерных центров. Эти два шага повторя-
ются до тех пор, пока изменения не будут исчерпаны.

Кластеризация методом k-средних лучше работает для 
сферичных, непересекающихся кластеров.



3
Метод главных 
компонент


3.1. Изучение пищевой ценности
Представьте, что вы диетолог. Как лучше всего диф-
ференцировать пищевые продукты? По содержанию 
витаминов? Или белка? Или, может, по тому и другому?
Рис. 1. Обычная пирамида питания
Знание о переменных, которые лучше всего дифференци-
руют ваши данные, может иметь несколько применений:

Визуализация. Отображение элементов на графике 
с подходящей шкалой может дать их лучшее пони-
мание.


3.2. Главные компоненты
53

Обнаружение кластеров. При хорошей визуализа-
ции могут быть обнаружены скрытые категории или 
кластеры. Например, если говорить о пищевых про-
дуктах, мы можем выявить такие широкие категории, 
как мясо и овощи, а также подкатегории различных 
видов овощей.
Вопрос в том, как нам получить переменные, которые 
дифференцируют наши данные наилучшим образом.
3.2. Главные компоненты
Метод главных компонент (Principal Component Analysis, 
МГК) — это способ нахождения основополагающих пере-
менных (известных как главные компоненты), которые 
дифференцируют ваши элементы данных оптимальным 
образом. Эти главные компоненты дают наибольший 
разброс данных (рис. 2).
Главная компонента может выражать одну или несколь-
ко переменных. Например, мы можем воспользоваться 
единственной переменной «Витамин C». Поскольку ви-
тамин C есть в овощах, но отсутствует в мясе, итоговый 
график (левая колонка на рис. 3) распределит овощи, но 
все мясо окажется в одной куче.
Для распределения мясных продуктов мы можем исполь-
зовать в качестве второй переменной жир, поскольку он 
присутствует в мясе, но его почти нет в овощах. Тем не 
менее, поскольку жир и витамин C измеряются в разных 
единицах, то прежде чем их скомбинировать, мы должны 
стандартизировать их.



Download 10,36 Mb.

Do'stlaringiz bilan baham:
1   ...   20   21   22   23   24   25   26   27   ...   90




Ma'lumotlar bazasi mualliflik huquqi bilan himoyalangan ©hozir.org 2024
ma'muriyatiga murojaat qiling

kiriting | ro'yxatdan o'tish
    Bosh sahifa
юртда тантана
Боғда битган
Бугун юртда
Эшитганлар жилманглар
Эшитмадим деманглар
битган бодомлар
Yangiariq tumani
qitish marakazi
Raqamli texnologiyalar
ilishida muhokamadan
tasdiqqa tavsiya
tavsiya etilgan
iqtisodiyot kafedrasi
steiermarkischen landesregierung
asarlaringizni yuboring
o'zingizning asarlaringizni
Iltimos faqat
faqat o'zingizning
steierm rkischen
landesregierung fachabteilung
rkischen landesregierung
hamshira loyihasi
loyihasi mavsum
faolyatining oqibatlari
asosiy adabiyotlar
fakulteti ahborot
ahborot havfsizligi
havfsizligi kafedrasi
fanidan bo’yicha
fakulteti iqtisodiyot
boshqaruv fakulteti
chiqarishda boshqaruv
ishlab chiqarishda
iqtisodiyot fakultet
multiservis tarmoqlari
fanidan asosiy
Uzbek fanidan
mavzulari potok
asosidagi multiservis
'aliyyil a'ziym
billahil 'aliyyil
illaa billahil
quvvata illaa
falah' deganida
Kompyuter savodxonligi
bo’yicha mustaqil
'alal falah'
Hayya 'alal
'alas soloh
Hayya 'alas
mavsum boyicha


yuklab olish