2. Klasterlash
boshqa guruhlardagi sub'ektlarga qaraganda bir-biriga o'xshash. Turli xil algoritmlardan foydalanish mumkin
asosan syujetdagi boshqa nuqtalardan ko'ra kelib chiqishidan uzoqroqda joylashgan nuqtalarni tekshiring. Uchun
yaratildi, bu ma'lumotlar to'plamidagi o'zgarishlarning 98% ni tushuntirdi, ular qanday qilib ko'rsatilmagan
PCA ko'pincha qo'shimcha tekshirish uchun maslahat beradi. Mualliflar 74 ta kompyuterni eslatib o'tgan bo'lsa-da
klasterlash algoritmlari sub'ektlarni bir guruh yoki klasterdagi sub'ektlar bo'ladigan tarzda guruhlaydi
G7 guruhini boshqa guruhlardan ajratish uchun. Biz ushbu punktlarning qaysi birini hukm qila olmaymiz
uchastkaning dastlabki ikkita shaxsiy kompyuterlari umumiy o'zgarishlarning atigi 50% ni tashkil qiladi, keyin vizualizatsiya
dastlabki bir necha shaxsiy kompyuterlar namunadagi o'zgaruvchanlikning katta qismini tushuntira olmaydi. Masalan, agar
inson ko'zi. Yuklash uchastkasida ( 1b-rasm) 1-band mas'ul bo'lgan birikmaga to'g'ri keladi
juda ko'p turli xil klasterlash usullari, biz faqat ikkita eng keng tarqalgan usulni kiritamiz
×
18
Machine Translated by Google
K-klasterlash markazlashtirilgan klasterga asoslangan va bo'lingan klasterlash usulining bir turi ekanligini anglatadi.
misol ÿ( - ) ( - ) ko'rinishga ega bo'lgan Mahalanobis masofasi.
har bir mavzu aynan bitta klasterda paydo bo'lishini talab qiladi. K-klasterlash sub'ektlarni k ga bo'lishini anglatadi
klasterlash demakdir. K-means klasterlash algoritmining o'zgarishlari uning o'rniga medianadan foydalanishni o'z ichiga oladi
Jordan, Russell, Ng 2002) A dagi parametrlarni K ni bajarish bilan birga o'rganish uchun ishlatilishi mumkin.
× . Bo'lish
(SOM) K ni aniqlashga yordam berishi mumkin. Shuningdek, K ni baholashning statistik usullari ham mavjud
statistik (Yan, Ye 2007). Yana bir muammo shundaki, K-vositalari har bir klasterdagi sub'ektlarni nazarda tutadi
markaz atrofida sharsimon taqsimlangan (Hamerly, Elkan 2003). Bu taxmin sabab bo'lishi mumkin
K-vositalarni klasterlash usullarining kamchiliklari. Asosiy muammo shundaki, klasterlar soni,
klaster. Agar barcha o'zgaruvchilar sonli bo'lsa, biz odatda Evklid masofasini tanlaymiz
turli o'lchamdagi yoki globulyar bo'lmagan shakldagi klasterlarga ega ma'lumotlarning yomon ishlashiga
har bir mavzu mos keladigan eng yaqin o'rtachaga tegishli bo'lgan bir-biriga mos kelmaydigan klasterlar
markaz vektor sifatida o'rtacha va har bir o'zgaruvchiga og'irliklarni belgilash. Ba'zilari ham bor
Bu aniq
PCA, ko'p o'lchovli masshtablash (MDS) va o'z-o'zini tartibga soluvchi xarita kabi vizualizatsiya vositalari
(1) K - Klasterlash degan ma'noni anglatadi
masofa mazmunli klasterlarni topa olmasa, biz boshqa masofa ko'rsatkichlaridan foydalanishni ko'rib chiqishimiz mumkin
ob'ekt va markaziy vektor o'rtasidagi farqni ko'rsatadigan ko'rsatkich. Evkliddan foydalanganda
"K" noma'lum parametrdir, shuning uchun biz algoritmni qo'llashdan oldin K ni aniqlashimiz kerak.
markaziy vektor, bu asl ma'lumotlar to'plamida kuzatuv bo'lmasligi mumkin;
umumiy, A - noma'lum shaklga ega bo'lgan kovariatsiya matritsasi, umumiy va samarali algoritm (Xing,
Evklid masofasi A identifikatsiya matritsasi bo'lganda Mahalanobis masofasining alohida holatidir. In
(Xartigan, Vong 1979). Bu erda centroidga asoslangan har bir klaster a bilan ifodalanishi mumkinligini ko'rsatadi
eng ko'p qo'llaniladigan usullar bo'shliqlar statistikasi (Tibshirani, Walther, Hastie 2001) va vaznli farqdir.
19
Machine Translated by Google
Gunderson 1983) bu holatlarda foydalanish mumkin. Fuzzy c-klasterlash degan ma'noni anglatadi (Bezdek, Coray,
asosiy klaster tuzilmasini deyarli aks ettirmaydi (Timmerman, Ceulemans, Kiers, Vichi).
klaster shakllarini izlash va klasterlar aralashmasini aniqlash mumkin bo'lgan ma'lumotlarga bog'liq yondashuv
K-vositalari (Timmerman, Ceulemans, De Roover, Van Leeuwen 2013). Muqobil yechim
vositalar (De Soete, Carroll 1994), shu jumladan faktoriy K-vositalar (Vichi, Kiers 2001) va pastki fazo
(Gunderson 1982) ga asoslangan noaniq c-navlarni klasterlash algoritmi (Gunderson 1983)
(2) Ierarxik klasterlash
ierarxik tuzilma. K-klasterlash vositalaridan farqli o'laroq, ierarxik klasterlash a ni ta'minlamaydi
2005). Tadqiq qilish uchun K-metabolitlar profillarida klasterlash vositalaridan foydalanishning yorqin misoli
K-vositalarida va Fuzzy c-klasterlash vositalarida. O'zboshimchalik bilan klasterlarni hal qilishning muqobil usuli
turli shakllar. Shu sababli, u vakil bo'lmagan tuzilmalarni o'rnatish cheklovlarini olib tashlaydi
o'zgarmaydigan tanlash (Steinley, Brusco 2008) yoki o'zgaruvchan tortish (Huang, Ng, Rong, Li) yordamida
metabolomikada loyqa c-vositalardan foydalanish (Li, Lu, Tian, Gao, Kong, Xu 2009) da tushuntirilgan.
(Ertöz, Steinbach, Kumar 2003). Moslashuvchan loyqa c-klasterlash demakdir (Gunderson 1982;
(Jain 2010). K-o'rtacha va boshqa klasterlash usullarining yana bir cheklovi shundaki, ba'zi o'zgaruvchilar
Shakl muammosi yadro K-vositalaridan foydalanmoqda (Schölkopf, Smola, Myuller 1998) va u taklif qilingan.
Xun iste'mol qilish namunalarini (O'Sullivan, Gibney, Brennan 2011) topish mumkin. Qanday qilib batafsilroq ma'lumot
ma'lum darajada bir nechta klasterlarga tegishli bo'lib, bu a'zolik qiymati deb ataladi. Moslashuvchan
Soete, Kerroll 1994). Dastlabki qisqartirilgan K ni yaxshilash uchun koÿplab usullar taklif qilingan
2010). Ushbu muammoni hal qilishning mumkin bo'lgan usullaridan biri kamaytirilgan maydonda K-vositalarni bajarishdir (De
Gunderson, Uotson 1981; Dunn 1973) - har bir ma'lumot nuqtasi bo'lgan K-vositalarining kengaytmasi
Ierarxik klasterlash (Jonson 1967) ierarxiyani quradi va dendrogrammani ifodalash uchun foydalanadi.
20
Machine Translated by Google
va foydalanuvchiga klasterlarni tanlash imkonini beradi. Ierarxik daraxtni shakllantirish uchun biz ni tanlashimiz kerak
Mahalanobis masofasi va maksimal masofa. Masofaviy funktsiyalarning umumiy muhokamasi bo'lishi mumkin
bog'lanish, to'liq bog'lanish va o'rtacha bog'lanish. Bog'lanish funktsiyalarining umumiy muhokamasi bo'lishi mumkin
Shuning uchun, ierarxik daraxt haqiqiy tuzilmaning qandaydir mazmunli topilmasini ta'minlashi mumkin
topildi, lekin ma'lumotlar to'plamidagi har bir ob'ekt bir xil klasterga tegishli bo'lmaguncha bo'linishda davom etadi.
Odatda ishlatiladigan masofa funksiyalariga Evklid masofasi, Manxetten masofasi,
yoki p-qiymati. Issiqlik xaritasining yon yoki tepasida ierarxik klasterli daraxtlarni qo'shishimiz mumkin, shunda biz
dan (Poroyko, Morowitz, Bell, Ulanov, Wang, Donovan, Bao et al. 2011).
Ierarxik klasterlash ko'pincha ma'lumotlar matritsasini vizualizatsiya qilish uchun issiqlik xaritasi bilan birgalikda ishlatiladi.
ierarxik klasterlashni amalga oshirishdan oldin barcha sub'ektlar uchun masofa matritsasi. Keyin kerak
(Jain, Murty, Flynn 1999) da topilgan. Biz tanlagan masofa funksiyasiga asoslanib, biz qurishimiz mumkin
ma'lumotlar to'plami. Biroq, u ham ba'zi kamchiliklarga ega, masalan, u tashqi ko'rsatkichlarga chidamli bo'lmasligi mumkin.
ma'lumotlar matritsasi ba'zi bir o'zgaruvchining qiymati yoki ba'zi statistik ma'lumotlar bo'lishi mumkin, masalan, korrelyatsiya koeffitsienti
ma'lumotlar to'plamining yagona bo'limi. U faqat ierarxik daraxt sifatida tashkil etilgan ichki klasterlarni ko'rsatadi
funktsiyalari turli klasterlarga olib keladi. Tez-tez ishlatiladigan bog'lanish funktsiyalari bittani o'z ichiga oladi
klasterlar juftligi uchun o'xshashlik ko'rsatkichi bo'lgan bog'lanish funksiyasini tanlang. Turli xil bog'lanish
Issiqlik xaritalari ma'lumotlar matritsasidagi turli qiymatlarni ifodalash uchun turli xil ranglardan foydalanadi. dagi qiymatlar
K-vositalari bo'yicha ierarxik klasterlash - bu klasterlarning maxsus sonida to'xtamaydi.
ikkita mavzu - masofa. Turli xil masofa funksiyalaridan foydalangan holda turli klasterlar hosil bo'ladi.
(Hastie, Tibshirani, Fridman, Hastie, Friedman, Tibshirani 2009) da topilgan. ning afzalligi
sub'ektlar juftligi va klaster juftlari o'rtasidagi o'xshashlik ko'rsatkichi. O'rtasidagi o'xshashlik ko'rsatkichi
ma’lumotlar tuzilishini aniq ko‘ra oladi. Bunday vakillikning yaxshi namunasi bor
21
Machine Translated by Google
Metabolomik yondashuvdan foydalangan holda mikrobial jamoalar. Ular issiqlik xaritasidan foydalanganlar
turli metabolitlarning tuzilishi. Ushbu grafik bizga bakteriyalarning qay darajada ekanligini tasavvur qilishga yordam beradi
Do'stlaringiz bilan baham: |