4 ta asosiy klasterlash algoritmlari
Algoritmlarning tasnifi . Klasterni amalga oshirishda, natijada qancha klaster qurish kerakligi muhim ahamiyatga ega. Klasterlash ob'ektlarning tabiiy mahalliy to'plamlarini aniqlashi kerak deb taxmin qilinadi. Shuning uchun, klasterlar soni ko'pincha algoritm shaklini sezilarli darajada murakkablashtiradigan parametr bo'lib, agar u noma'lum deb hisoblansa, natijaning sifatiga sezilarli ta'sir qiladi, agar u ma'lum bo'lsa.
Klasterlar sonini tanlash muammosi unchalik ahamiyatsiz emas. Qoniqarli nazariy yechimni olish uchun ko'pincha oldindan belgilangan taqsimotlar oilasining xususiyatlari haqida juda kuchli taxminlarni talab qilishini aytish kifoya. Ammo, ayniqsa tadqiqot boshida, ma'lumotlar haqida deyarli hech narsa ma'lum bo'lmasa, qanday taxminlar haqida gapirish mumkin? Shuning uchun klasterlash algoritmlari odatda klasterlar sonini sanash va sanash jarayonida uning optimal qiymatini aniqlashning qandaydir usuli sifatida tuziladi.
To'plamni klasterlarga bo'lish usullari soni juda katta. Ularning barchasini ierarxik va ierarxik bo'lmaganlarga bo'lish mumkin .
Ierarxik bo'lmagan algoritmlarda ularning ishining tabiati va to'xtash holati juda ko'p sonli parametrlar bilan oldindan tartibga solinishi kerak, bu ba'zan qiyin, ayniqsa materialni o'rganishning dastlabki bosqichida. Ammo bunday algoritmlarda har xil klasterlashda katta moslashuvchanlikka erishiladi va odatda klasterlar soni aniqlanadi.
Boshqa tomondan, ob'ektlar ko'p sonli xususiyatlar (parametrlar) bilan tavsiflanganda, u holda xususiyatlarni guruhlash vazifasi muhim bo'ladi. Boshlang'ich ma'lumot belgilar ulanishlarining kvadrat matritsasida, xususan, korrelyatsiya matritsasida joylashgan. Guruhlash muammosini muvaffaqiyatli hal qilish uchun asos xususiyatlar o'rtasidagi o'zaro munosabatlarning tuzilishini belgilaydigan oz sonli yashirin omillar haqidagi norasmiy farazdir.
Ierarxik algoritmlarda, aslida, ular klasterlar sonini aniqlashdan bosh tortadilar, ichki klasterlarning to'liq daraxtini (dendrogramma) quradilar. Klasterlar soni, qoida tariqasida, algoritmlarning ishlashi bilan bog'liq bo'lmagan taxminlar asosida, masalan, klasterlarning bo'linish (birlashma) chegarasidagi o'zgarishlar dinamikasi bilan belgilanadi. Bunday algoritmlarning qiyinchiliklari yaxshi o'rganilgan: klasterga yaqinlik o'lchovlarini tanlash, dendrogrammalarda inversiyalarni indekslash muammosi, ierarxik tasniflarning o'zgarmasligi, bu ba'zan juda istalmagan. Biroq, klasterlarning dendrogramma tasviri klasterlarning tuzilishi haqida eng to'liq tushunchani beradi.
Ierarxik algoritmlar dendrogrammalarni qurish bilan bog'liq va quyidagilarga bo'linadi:
aglomerativ, boshlang'ich elementlarning ketma-ket kombinatsiyasi va klasterlar sonining mos ravishda kamayishi (pastdan yuqoriga klasterlarni qurish) bilan tavsiflanadi;
bo'linadigan (bo'linadigan)larga bo'linadi, ularda klasterlar soni bittadan boshlab ortadi, buning natijasida bo'linish guruhlari ketma-ketligi hosil bo'ladi (yuqoridan pastgacha klasterlarni qurish).
Do'stlaringiz bilan baham: |