Ko'p sonli kuzatishlar bilan klaster tahlilining ierarxik usullari mos kelmaydi. Bunday hollarda ierarxik bo'lmagan qismlarga bo'lish usullari qo'llaniladi, bu asl aholini bo'lishning iterativ usullaridir. Bo'linish jarayonida to'xtash qoidasi bajarilgunga qadar yangi klasterlar hosil bo'ladi.
Ushbu ierarxik bo'lmagan klasterlash ma'lumotlar to'plamini bir nechta alohida klasterlarga bo'lishdan iborat. Ikkita yondashuv mavjud. Birinchisi, klasterlarning chegaralarini dastlabki ma'lumotlarning ko'p o'lchovli maydonidagi eng zich joylar sifatida belgilash, ya'ni. "nuqtalarning kontsentratsiyasi" katta bo'lgan klasterning ta'rifi. Ikkinchi yondashuv ob'ektlar orasidagi farqni minimallashtirishdir
Klasterlashdan oldin ko'rib chiqilishi kerak bo'lgan bir qator murakkabliklar mavjud.
Klasterlash amalga oshiriladigan xususiyatlarni tanlashning murakkabligi. Shoshilinch tanlov noto'g'ri klasterlashishga va natijada muammoni noto'g'ri hal qilishga olib keladi.
Klasterlash usulini tanlashda qiyinchilik. Ushbu tanlov ulardan foydalanish usullari va old shartlarini yaxshi bilishni talab qiladi. Muayyan mavzu bo'yicha ma'lum bir usulning samaradorligini tekshirish uchun quyidagi tartibni qo'llash tavsiya etiladi: bir nechta apriori turli guruhlarni ko'rib chiqing va ularning vakillarini tasodifiy ravishda aralashtirish. Keyinchalik, klasterlarga asl bo'linishni tiklash uchun klasterlash amalga oshiriladi. Aniqlangan va original guruhlardagi ob'ektlarning mos kelishining foizi usulning samaradorligining ko'rsatkichidir.
Klasterlar sonini tanlash muammosi. Agar klasterlarning mumkin bo'lgan soni to'g'risida ma'lumot bo'lmasa, bir qator tajribalarni o'tkazish va klasterlarning har xil sonini sanab o'tish natijasida ulardan optimal sonini tanlash kerak.
Klasterlash natijalarini sharhlash muammosi. Ko'pgina hollarda, klasterlarning shakli birlashma usulini tanlash bilan belgilanadi. Ammo shuni yodda tutish kerakki, o'rganilayotgan ma'lumotlar to'plamida klasterlar bo'lmasa ham, muayyan usullar ma'lum shakllardagi klasterlarni yaratishga intiladi. Agar klasterlar soni haqida hech qanday taxminlar bo'lmasa, ierarxik algoritmlardan foydalanish tavsiya etiladi. Biroq, agar namuna hajmi bunga imkon bermasa, mumkin bo'lgan yo'l - turli xil klasterlar soni bilan bir qator tajribalar o'tkazish, masalan, ma'lumotlar to'plamini ikki guruhga bo'lishni boshlash va ularning sonini asta-sekin oshirib, natijalarni solishtirish. Natijalarning bunday "variatsiyasi" tufayli klasterlashning etarlicha katta moslashuvchanligiga erishiladi.
Ierarxik usullar, ierarxik bo'lmagan usullardan farqli o'laroq, klasterlar sonini aniqlashdan bosh tortadi, lekin ichki klasterlarning to'liq daraxtini yaratadi.
Ierarxik klasterlash usullarining murakkabligi: ma'lumotlar to'plamining hajmini cheklash; yaqinlik o'lchovini tanlash; hosil bo'lgan tasniflarning o'zgarmasligi.
Ushbu usullar guruhining ierarxik bo'lmagan usullarga nisbatan afzalligi ularning ravshanligi va ma'lumotlar tuzilishini batafsil tushunish qobiliyatidir.
Ierarxik usullardan foydalangan holda, ma'lumotlar to'plamidagi chegaralarni osongina aniqlash va natijada ma'lumotlar sifatini yaxshilash mumkin. Ushbu protsedura ikki bosqichli klasterlash algoritmining markazida joylashgan. Ushbu ma'lumotlar to'plami keyinchalik ierarxik bo'lmagan klasterlash uchun ishlatilishi mumkin.
Ushbu ma'ruzada allaqachon aytib o'tilgan yana bir jihat bor. Bu butun ma'lumotlar to'plamini yoki uning namunasini klasterlash masalasidir. Bu jihat ikkala ko'rib chiqilgan usullar guruhlari uchun muhim, ammo ierarxik usullar uchun muhimroqdir. Ierarxik usullar katta ma'lumotlar to'plami bilan ishlay olmaydi, lekin ba'zi tanlovlardan foydalanish, ya'ni. ma'lumotlar bo'laklari ushbu usullarni qo'llash imkonini berishi mumkin.
Klasterlash - bu ma'lumotlar nuqtalarini guruhlashni o'z ichiga olgan Machine Learning usuli. Ma'lumotlar nuqtalari to'plamini hisobga olgan holda, biz har bir ma'lumot nuqtasini ma'lum bir guruhga tasniflash uchun klasterlash algoritmidan foydalanishimiz mumkin. Nazariy jihatdan, bir guruhdagi ma'lumotlar nuqtalari o'xshash xususiyatlarga va/yoki xususiyatlarga ega bo'lishi kerak, turli guruhlardagi ma'lumotlar nuqtalari esa juda o'xshash xususiyatlarga va/yoki xususiyatlarga ega bo'lishi kerak. Klasterlash nazoratsiz o'rganish usuli bo'lib, ko'plab sohalarda qo'llaniladigan statistik ma'lumotlarni tahlil qilishning keng tarqalgan usuli hisoblanadi.
Ma'lumotlar fanida biz klasterlash algoritmini qo'llaganimizda ma'lumotlar nuqtalari qaysi guruhlarga to'g'ri kelishini ko'rish orqali ma'lumotlarimizdan qimmatli tushunchalarni olish uchun klasterlash tahlilidan foydalanishimiz mumkin. Bugun biz ma'lumotlar olimlari bilishi kerak bo'lgan 5 ta mashhur klasterlash algoritmlarini va ularning ijobiy va salbiy tomonlarini ko'rib chiqamiz!
K - Klasterlash degan ma'noni anglatadi
K-Means, ehtimol, eng mashhur klasterlash algoritmidir. U ko'plab kirish ma'lumotlar fanlari va mashinalarni o'rganish darslarida o'qitiladi. Kodda tushunish va amalga oshirish oson! Rasm uchun quyidagi grafikni ko'rib chiqing. 1. Boshlash uchun biz birinchi navbatda foydalanish uchun bir qancha sinf/guruhlarni tanlaymiz va ularning tegishli markaz nuqtalarini tasodifiy ishga tushiramiz. Foydalanadigan sinflar sonini aniqlash uchun ma'lumotlarni tezda ko'rib chiqish va har qanday alohida guruhlarni aniqlashga harakat qilish yaxshidir. Markaziy nuqtalar har bir ma'lumot nuqtasi vektori bilan bir xil uzunlikdagi vektorlar bo'lib, yuqoridagi grafikdagi "X" lardir.
2. Har bir ma’lumot nuqtasi shu nuqta va har bir guruh markazi orasidagi masofani hisoblash yo‘li bilan tasniflanadi, so‘ngra markaz unga eng yaqin bo‘lgan guruhga joylashish uchun nuqta tasniflanadi.
3. Ushbu tasniflangan nuqtalarga asoslanib, biz guruhdagi barcha vektorlarning o'rtacha qiymatini olib, guruh markazini qayta hisoblaymiz.
4. Belgilangan miqdordagi takrorlash uchun yoki guruh markazlari takrorlashlar orasida unchalik o'zgarmaguncha ushbu amallarni takrorlang. Shuningdek, siz guruh markazlarini bir necha marta tasodifiy ishga tushirishni tanlashingiz mumkin, so'ngra eng yaxshi natijalarni bergandek ko'rinadigan yugurishni tanlashingiz mumkin.
K-Means-ning afzalligi shundaki, u juda tez ishlaydi, chunki biz haqiqatdan ham nuqtalar va guruh markazlari orasidagi masofani hisoblash bilan shug'ullanamiz; juda kam hisob-kitoblar! Shunday qilib, u O(n) chiziqli murakkablikka ega.
Boshqa tomondan, K-Meansning bir nechta kamchiliklari bor. Birinchidan, siz nechta guruh/sinf mavjudligini tanlashingiz kerak. Bu har doim ham ahamiyatsiz emas va ideal tarzda klasterlash algoritmi bilan biz buni o'zimiz uchun aniqlashni xohlaymiz, chunki uning maqsadi ma'lumotlardan qandaydir tushunchaga ega bo'lishdir. K-vositalari ham klaster markazlarini tasodifiy tanlash bilan boshlanadi va shuning uchun u algoritmning turli bosqichlarida turli xil klasterlash natijalarini berishi mumkin. Shunday qilib, natijalar takrorlanmasligi va izchil bo'lmasligi mumkin. Boshqa klaster usullari yanada izchil.
K-Medians - bu K-Means bilan bog'liq yana bir klasterlash algoritmi, biz guruhning o'rtacha vektorini ishlatadigan o'rtachadan foydalanib, guruh markazi nuqtalarini qayta hisoblash o'rniga bundan mustasno. Bu usul chet koʻrsatkichlarga nisbatan kam sezgir (Medianadan foydalanganligi sababli), lekin kattaroq maʼlumotlar toʻplami uchun ancha sekinroq, chunki Median vektorini hisoblashda har bir iteratsiyada tartiblash talab etiladi.
O'rtacha siljishli klasterlash
O'rtacha siljish klasteri - bu ma'lumotlar nuqtalarining zich joylarini topishga harakat qiladigan sirpanish oynasiga asoslangan algoritm. Bu markazlashtirilgan algoritmga asoslangan algoritm bo'lib, maqsad har bir guruh/sinfning markaziy nuqtalarini topishdan iborat bo'lib, u markaz nuqtalari uchun nomzodlarni siljish oynasidagi nuqtalarning o'rtacha qiymatiga aylantirish orqali ishlaydi. Bu nomzod oynalar so'ngra yaqin dublikatlarni yo'q qilish uchun keyingi ishlov berish bosqichida filtrlanadi, markaziy nuqtalarning yakuniy to'plamini va ularning tegishli guruhlarini tashkil qiladi. Rasm uchun quyidagi grafikni ko'rib chiqing. 1. O'rtacha siljishni tushuntirish uchun yuqoridagi rasmga o'xshab ikki o'lchovli fazodagi nuqtalar to'plamini ko'rib chiqamiz. Biz markazda C nuqtada joylashgan (tasodifiy tanlangan) va yadro sifatida r radiusga ega bo'lgan aylana surma oynadan boshlaymiz. O'rtacha siljish - tepaga ko'tarilish algoritmi bo'lib, bu yadroni har bir qadamda yaqinlashuvga qadar iterativ ravishda yuqori zichlikli mintaqaga o'tkazishni o'z ichiga oladi.
2. Har bir iteratsiyada toymasin oyna markaz nuqtasini oyna ichidagi nuqtalarning o'rtasiga (shuning uchun nomi) o'tkazish orqali yuqori zichlikdagi hududlarga siljiydi. Sürgülü oyna ichidagi zichlik uning ichidagi nuqtalar soniga mutanosibdir. Tabiiyki, oynadagi nuqtalarning o'rtacha qiymatiga o'tish orqali u asta-sekin nuqta zichligi yuqori bo'lgan joylarga o'tadi.
3. Biz siljish yadro ichidagi ko'proq nuqtalarni sig'dira oladigan yo'nalish bo'lmaguncha, biz surma oynani o'rtacha qiymatga ko'ra o'zgartirishni davom ettiramiz. Yuqoridagi grafikni tekshiring; biz zichlikni oshirmagunimizcha aylana harakatini davom ettiramiz (ya'ni oynadagi nuqtalar soni).
4. 1 dan 3 gacha bo'lgan bosqichlarning bu jarayoni barcha nuqtalar deraza ichida yotguncha ko'p surma oynalar bilan amalga oshiriladi. Bir nechta toymasin oynalar bir-biriga yopishganda, eng ko'p nuqtalarni o'z ichiga olgan oyna saqlanib qoladi. Keyin ma'lumotlar nuqtalari ular joylashgan toymasin oynaga ko'ra klasterlanadi.
Barcha toymasin oynalar bilan boshidan oxirigacha butun jarayonning tasviri quyida ko'rsatilgan. Har bir qora nuqta toymasin oynaning markaziy qismini ifodalaydi va har bir kulrang nuqta ma'lumotlar nuqtasidir. K-means klasterlashdan farqli o'laroq, klasterlar sonini tanlashning hojati yo'q, chunki o'rtacha siljish avtomatik ravishda buni aniqlaydi. Bu katta afzallik. Klaster markazlarining maksimal zichlik nuqtalariga yaqinlashishi ham juda ma'qul, chunki tushunish juda intuitiv va tabiiy ma'lumotlarga asoslangan ma'noda yaxshi mos keladi. Kamchilik shundaki, oyna o'lchami / radiusi "r" ni tanlash ahamiyatsiz bo'lishi mumkin.
Shovqinli ilovalarning zichlikka asoslangan fazoviy klasteri (DBSCAN)
DBSCAN zichlikka asoslangan klasterli algoritm bo'lib, o'rtacha siljishga o'xshaydi, lekin bir nechta muhim afzalliklarga ega. Quyidagi boshqa chiroyli grafikani ko'rib chiqing va boshlaylik! 1. DBSCAN tashrif buyurilmagan ixtiyoriy boshlang'ich ma'lumotlar nuqtasi bilan boshlanadi. Bu nuqtaning qo'shnisi epsilon e masofasidan foydalanib chiqariladi (e masofada joylashgan barcha nuqtalar qo'shni nuqtalardir).
2. Agar ushbu qo'shni hududda etarli miqdordagi nuqtalar mavjud bo'lsa (minPoints bo'yicha) u holda klasterlash jarayoni boshlanadi va joriy ma'lumotlar nuqtasi yangi klasterdagi birinchi nuqtaga aylanadi. Aks holda, nuqta shovqin sifatida belgilanadi (keyinchalik bu shovqinli nuqta klasterning bir qismiga aylanishi mumkin). Ikkala holatda ham ushbu nuqta "tashrif buyurilgan" deb belgilanadi.
3. Yangi klasterning birinchi nuqtasi uchun uning e masofali qo'shnisi ichidagi nuqtalar ham bir xil klasterning bir qismiga aylanadi. E-mahalladagi barcha nuqtalarni bir xil klasterga tegishli qilishning ushbu protsedurasi klaster guruhiga yangi qo'shilgan barcha yangi nuqtalar uchun takrorlanadi.
4. 2 va 3-bosqichlarning ushbu jarayoni klasterdagi barcha nuqtalar aniqlanmaguncha, ya'ni klasterning e mahallasidagi barcha nuqtalar tashrif buyurilib, ular etiketlanmaguncha takrorlanadi.
5. Joriy klaster bilan ishlashni tugatganimizdan so'ng, yangi ko'rilmagan nuqta olinadi va qayta ishlanadi, bu esa keyingi klaster yoki shovqinning ochilishiga olib keladi. Bu jarayon barcha nuqtalar tashrif buyurilgan deb belgilanmaguncha takrorlanadi. Buning oxirida barcha nuqtalarga tashrif buyurilganligi sababli, har bir nuqta klasterga tegishli yoki shovqin deb belgilangan bo'ladi. DBSCAN boshqa klasterlash algoritmlariga nisbatan katta afzalliklarga ega. Birinchidan, bu klasterlarning aniq sonini talab qilmaydi. U, shuningdek, ma'lumotlar nuqtasi juda boshqacha bo'lsa ham, ularni oddiygina klasterga tashlaydigan o'rtacha siljishdan farqli o'laroq, shovqinlarni shovqin sifatida aniqlaydi. Bundan tashqari, u o'zboshimchalik bilan o'lchamdagi va o'zboshimchalik bilan shakllangan klasterlarni juda yaxshi topishi mumkin.
DBSCAN ning asosiy kamchiligi shundaki, u klasterlar har xil zichlikda bo'lsa, u boshqalar kabi yaxshi ishlamaydi. Buning sababi shundaki, zichlik o'zgarganda qo'shni nuqtalarni aniqlash uchun masofa chegarasi e va minPoints klasterdan klasterga farq qiladi. Bu kamchilik juda katta o'lchamli ma'lumotlar bilan ham sodir bo'ladi, chunki masofa chegarasi e ni yana baholash qiyin bo'ladi.
Gauss aralashmasi modellari (GMM) yordamida kutish-maksimizatsiya (EM) klasteri
K-Means ning asosiy kamchiliklaridan biri bu klaster markazi uchun o'rtacha qiymatdan sodda foydalanishdir. Quyidagi rasmga qarab, nima uchun bu ishlarni qilishning eng yaxshi usuli emasligini tushunishimiz mumkin. Chap tomonda, inson ko'ziga bir xil o'rtacha markazda joylashgan turli xil radiusli ikkita dumaloq klaster mavjudligi aniq ko'rinadi. K-Means buni bartaraf eta olmaydi, chunki klasterlarning o'rtacha qiymatlari bir-biriga juda yaqin. K-means, shuningdek, klasterlar aylana bo'lmagan hollarda, yana o'rtachadan klaster markazi sifatida foydalanish natijasida muvaffaqiyatsiz bo'ladi. Gauss aralashmasi modellari (GMM) bizga K-Means-ga qaraganda ko'proq moslashuvchanlikni beradi. GMMlar bilan biz ma'lumotlar nuqtalari Gauss taqsimlangan deb taxmin qilamiz; Bu o'rtachadan foydalanib, ular aylana ekanligini aytishdan ko'ra kamroq cheklovchi taxmindir. Shunday qilib, bizda klasterlar shaklini tavsiflash uchun ikkita parametr mavjud: o'rtacha va standart og'ish! Ikki o'lchamdagi misolni oladigan bo'lsak, bu klasterlar har qanday elliptik shaklga ega bo'lishi mumkinligini anglatadi (chunki bizda x va y yo'nalishlarida standart og'ish bor). Shunday qilib, har bir Gauss taqsimoti bitta klasterga tayinlanadi.
Har bir klaster uchun Gauss parametrlarini (masalan, o'rtacha va standart og'ish) topish uchun biz kutish-maksimizatsiya (EM) deb nomlangan optimallashtirish algoritmidan foydalanamiz. Gausslarning klasterlarga o'rnatilishi tasviri sifatida quyidagi grafikni ko'rib chiqing. Keyin biz GMM-lar yordamida kutish-maksimizatsiya klasterlash jarayonini davom ettirishimiz mumkin. 1. Biz klasterlar sonini tanlash (K-Means kabi) va har bir klaster uchun Gauss taqsimot parametrlarini tasodifiy boshlashdan boshlaymiz. Ma'lumotlarga tezkorlik bilan qarash orqali dastlabki parametrlar uchun yaxshi taxminlarni taqdim etishga harakat qilish mumkin. E'tibor bering, yuqoridagi grafikda ko'rinib turganidek, bu 100% kerak emas, chunki Gaussliklar bizni juda kambag'al deb boshlashadi, lekin tezda optimallashtiriladi.
2. Har bir klaster uchun ushbu Gauss taqsimotlarini hisobga olgan holda, har bir ma'lumot nuqtasi ma'lum bir klasterga tegishli bo'lish ehtimolini hisoblang. Nuqta Gauss markaziga qanchalik yaqin bo'lsa, u klasterga tegishli bo'lish ehtimoli shunchalik yuqori bo'ladi. Bu intuitiv ma'noga ega bo'lishi kerak, chunki Gauss taqsimoti bilan biz ma'lumotlarning aksariyati klaster markaziga yaqinroq joylashgan deb taxmin qilamiz.
3. Ushbu ehtimolliklarga asoslanib, biz Gauss taqsimotlari uchun yangi parametrlar to'plamini hisoblaymiz, shunda biz klasterlar ichidagi ma'lumotlar nuqtalarining ehtimolini maksimal darajada oshiramiz. Biz ushbu yangi parametrlarni ma'lumotlar nuqtasi pozitsiyalarining vaznli yig'indisidan foydalanib hisoblaymiz, bu erda og'irliklar ma'lum bir klasterga tegishli ma'lumotlar nuqtasining ehtimoli hisoblanadi. Buni vizual tarzda tushuntirish uchun biz yuqoridagi grafikni, xususan, misol sifatida sariq klasterni ko'rib chiqishimiz mumkin. Tarqatish birinchi iteratsiyada tasodifiy boshlanadi, ammo biz sariq nuqtalarning aksariyati ushbu taqsimotning o'ng tomonida ekanligini ko'rishimiz mumkin. Ehtimollar bo'yicha yig'indini hisoblaganimizda, markazga yaqin nuqtalar bo'lsa ham, ularning aksariyati o'ng tomonda. Shunday qilib, tabiiy ravishda taqsimotning o'rtacha qiymati ushbu nuqtalar to'plamiga yaqinlashadi. Bundan tashqari, nuqtalarning aksariyati "yuqoridan o'ngdan pastdan" chapga ekanligini ko'rishimiz mumkin. Shuning uchun standart og'ish ehtimollar bilan og'irlikdagi yig'indini maksimallashtirish uchun ushbu nuqtalarga ko'proq mos keladigan ellips hosil qilish uchun o'zgaradi.
4. 2 va 3-bosqichlar konvergentsiyaga qadar iterativ ravishda takrorlanadi, bunda taqsimotlar iteratsiyadan iteratsiyaga ko'p o'zgarmaydi.
GMM lardan foydalanishning ikkita asosiy afzalligi bor. Birinchidan, GMMlar K-Meansga qaraganda klaster kovariatsiyasi jihatidan ancha moslashuvchan; standart og'ish parametri tufayli, klasterlar doiralar bilan chegaralangan emas, balki har qanday ellips shaklini olishi mumkin. K-Means aslida GMMning alohida holati bo'lib, unda har bir klasterning barcha o'lchamlar bo'yicha kovariatsiyasi 0 ga yaqinlashadi. Ikkinchidan, GMMlar ehtimolliklardan foydalanganligi sababli, ular har bir ma'lumot nuqtasi uchun bir nechta klasterlarga ega bo'lishi mumkin. Shunday qilib, agar ma'lumotlar nuqtasi bir-biriga o'xshash ikkita klasterning o'rtasida bo'lsa, biz shunchaki uning sinfini X-foiz 1-sinfga va Y-foiz 2-sinfga tegishli ekanligini aytish orqali aniqlashimiz mumkin. Ya'ni GMM aralash a'zolikni qo'llab-quvvatlaydi. Ierarxik klasterlash algoritmlari 2 toifaga bo'linadi: yuqoridan pastga yoki pastdan yuqoriga. Pastdan yuqoriga yo'naltirilgan algoritmlar har bir ma'lumot nuqtasini boshida bitta klaster sifatida ko'rib chiqadi va keyin barcha klasterlar barcha ma'lumotlar nuqtalarini o'z ichiga olgan yagona klasterga birlashtirilgunga qadar klaster juftlarini ketma-ket birlashtiradi (yoki aglomeratsiya qiladi). Shuning uchun pastdan yuqoriga ierarxik klasterlash ierarxik aglomerativ klasterlash yoki HAC deb ataladi. Klasterlarning bu ierarxiyasi daraxt (yoki dendrogramma) sifatida ifodalanadi. Daraxtning ildizi barcha namunalarni to'playdigan noyob klaster bo'lib, barglar faqat bitta namunaga ega bo'lgan klasterlardir. Algoritm bosqichlariga o'tishdan oldin rasm uchun quyidagi grafikni ko'rib chiqing. Biz har bir ma'lumot nuqtasini bitta klaster sifatida ko'rib chiqishni boshlaymiz, ya'ni agar bizning ma'lumotlar to'plamimizda X ma'lumotlar nuqtasi bo'lsa, bizda X klasterlar mavjud. Keyin ikkita klaster orasidagi masofani o'lchaydigan masofa ko'rsatkichini tanlaymiz. Misol tariqasida, biz ikkita klaster orasidagi masofani birinchi klasterdagi ma'lumotlar nuqtalari va ikkinchi klasterdagi ma'lumotlar nuqtalari orasidagi o'rtacha masofani belgilaydigan o'rtacha ulanishdan foydalanamiz.
2. Har bir iteratsiyada ikkita klasterni birlashtiramiz. Birlashtiriladigan ikkita klaster eng kichik o'rtacha bog'lanishga ega bo'lganlar sifatida tanlanadi. Ya'ni, biz tanlagan masofa ko'rsatkichiga ko'ra, bu ikki klaster bir-birining orasidagi eng kichik masofaga ega va shuning uchun eng o'xshash va birlashtirilishi kerak.
3. 2-bosqich daraxtning ildiziga yetguncha takrorlanadi, ya'ni bizda barcha ma'lumotlar nuqtalarini o'z ichiga olgan faqat bitta klaster mavjud. Shunday qilib, biz klasterlarni birlashtirishni qachon to'xtatishni tanlash orqali, ya'ni daraxt qurishni to'xtatganda, biz oxir-oqibat qancha klasterni tanlashimiz mumkin!
4. Ierarxik klasterlash bizdan klasterlar sonini ko'rsatishni talab qilmaydi va hatto biz daraxt qurayotganimiz uchun qaysi klasterlar soni yaxshiroq ko'rinishini tanlashimiz mumkin. Bundan tashqari, algoritm masofa o'lchovini tanlashga sezgir emas; Ularning barchasi bir xil darajada yaxshi ishlaydi, boshqa klasterlash algoritmlari bilan esa masofa ko'rsatkichini tanlash juda muhimdir. Ierarxik klasterlash usullaridan foydalanishning eng yaxshi usuli bu asosiy ma'lumotlar ierarxik tuzilishga ega bo'lganda va siz ierarxiyani tiklashni xohlasangiz; boshqa klasterlash algoritmlari buni qila olmaydi.
Xulosa
Ma'lumot olimi bilishi kerak bo'lgan eng yaxshi 5 ta klaster algoritmingiz bor! Scikit Learn yordamida biz ushbu algoritmlar va boshqa bir nechta algoritmlarning qanchalik yaxshi ishlashini ajoyib vizualizatsiya bilan yakunlaymiz! Turli xil algoritmlarni turli ma'lumotlar bilan qanday taqqoslash va solishtirishni ko'rish juda ajoyib!
Do'stlaringiz bilan baham: |