Ierarxik klasterlashning asosiy g'oyasi yaqin atrofdagi ob'ektlar uzoqroqdagi ob'ektlarga nisbatan ko'proq bog'liqligi haqidagi kontseptsiyaga asoslanadi. Keling, ushbu algoritmlarning turli jihatlarini batafsil ko'rib chiqaylik:
Algoritmlar masofaga qarab " klasterlar " hosil qilish uchun " ob'ektlar " bilan bog'lanadi.
Klasterni klaster qismlariga ulanish uchun zarur bo'lgan maksimal masofa bilan aniqlash mumkin.
Dendrogrammalar " ierarxik klaster " nomi qayerdan kelganligini tushuntirib, turli masofalarda hosil bo'lgan turli klasterlarni ifodalashi mumkin . Ushbu algoritmlar ma'lum masofalarda birlashtirilgan klasterlar ierarxiyasini ta'minlaydi.
Dendrogrammada y o'qi klasterlar birlashadigan masofani belgilaydi. Ob'ektlar x o'qi yoniga shunday joylashtirilganki, klasterlar aralashmaydi.
Ierarxik klasterlash - bu masofani turli yo'llar bilan hisoblaydigan usullar oilasi. Ommabop tanlovlar bitta ulanish klasteri, to'liq bog'lanish klasteri va UPGMA sifatida tanilgan . Bundan tashqari, ierarxik klasterlash quyidagilar bo'lishi mumkin:
Aglomerativ - u alohida elementdan boshlanadi va keyin ularni bitta klasterlarga guruhlaydi.
Bo'linuvchi - u to'liq ma'lumotlar to'plamidan boshlanadi va uni bo'limlarga ajratadi.
Aglomerativ ierarxik klasterlash (AHC)
Ushbu bo'limda men eng muhim ierarxik klasterlash usullaridan biri bo'lgan AHC algoritmini tushuntiraman. Buni amalga oshirish bosqichlari:
Har bir ma'lumot nuqtasi bitta klaster sifatida ko'rib chiqiladi. Bizda boshida K klasterlar mavjud. Boshida ma'lumotlar nuqtalari soni ham K bo'ladi.
Endi biz ushbu bosqichda ikkita eng yaqin ma'lumotlar nuqtasini birlashtirib, katta klasterni shakllantirishimiz kerak. Bu umumiy K-1 klasterlariga olib keladi.
Ko'proq klasterlarni shakllantirish uchun ikkita eng yaqin klasterni hozir birlashtirish kerak. Bu jami K-2 klasterlariga olib keladi.
Katta klaster hosil qilish uchun K 0 ga aylanmaguncha yuqoridagi uchta qadamni takrorlang. Qo'shilish uchun boshqa ma'lumotlar nuqtasi qolmadi.
Nihoyat bitta katta klasterni shakllantirgandan so'ng, biz foydalanish holatiga qarab klasterlarni bir nechta klasterlarga bo'lish uchun dendrogrammalardan foydalanishimiz mumkin.
Quyidagi rasm ierarxik klasterlash yondashuvi haqida fikr beradi.
Manba