4. Ko‘p o‘lchovli guruhlash usullar
Ko‘p o‘lchovli guruhlash deb bir qancha belgilar asosida tuzilgan guruhlash yuritiladi.
Ko‘p o‘lchovli guruhlash kombinatsion guruhlashga nisbatan qator afzalliklarga ega. Kombinatsion guruhlashni qo‘llash uchun muhim shart - o‘rganilayotgan to‘plam juda ko‘p, jumladan yuzlab-minglab birliklarni birlashtirishi lozim. Bu usulda guruhlash asosi qilib olinadigan belgilar soni ko‘paygan sari tuziladigan guruhlar soni geometrik progressiya bo‘yicha oshib boradi.
Ko‘p o‘lchovli guruhlashlar kombinatsion guruhlashga oid kamchiliklardan xolidir va shu bilan bir vaqtda guruhlarni murakkab holda tasvirlashni, bir to‘da belgilarga tayanib tuzishni ta’minlaydi. Ko‘pincha ular ko‘p o‘lchovli tasniflash deb nomlanadi.
Ko‘p o‘lchovli tasniflashning eng oddiy usuli to‘plam birliklarini ko‘p o‘lchovli o‘rtacha miqdorlar asosida guruhlashdir.
Ko‘p o‘lchovli o‘rtacha miqdor - bu bir to‘da belgilar qiymatlariga asoslanib har bir to‘plam birligi uchun hisoblangan o‘rtacha ko‘rsatkich
Ko‘p o‘lchovli o‘rtacha miqdor deb har bir to‘plam birligi uchun uning bir to‘da miqdoriy belgilari asosida hisoblangan o‘rtacha ko‘rsatkich yuritiladi. Turli belgilar absolut qiymatlarini qo‘shib bo‘lmagani uchun dastlab ularning nisbiy qiymatlari aniqlanadi. So‘ngra, barcha belgilar uchun hisoblangan nisbiy ko‘rsatkichlar qo‘shiladi va natijada har bir birlik uchun ko‘p o‘lchovli o‘rtacha miqdor hosil bo‘ladi, ya’ni:
Bu yerda: - birlik uchun ko‘p o‘lchovli o‘rtacha ko‘rsatkich;
xij – i-birlik uchun xi belgisining qiymati;
xj – xj belgining o‘rtacha to‘plam (yoki standart) bo‘yicha qiymati;
k - belgilar soni;
j - belgi tartib soni (nomeri);
i - to‘plam birligining tartib soni (nomeri).
Ko‘p o‘lchovli tasniflashning asosliroq usuli klaster tahlilidir. Usul nomi inglizcha the cluster so‘zining ildizidan kelib chiqadi. Bu so‘z sinf,guruh, to‘da ma’nosiga ega. Klaster so‘zi matematikadagi «to‘plam» tushunchasiga ma’nodoshdir, chunki ayrim sinflar faqat bir xil hodisalarni (matematikada sonlar olgani kabi) o‘z ichiga oladi, ammo matematikadagi to‘plamdan farqli o‘laroq ular bo‘sh bo‘lishi mumkin emas.
Klaster tahlil har bir klasterga tegishli birliklarni ularning bir to‘da belgilariga, qiyofasiga o‘xshashlik me’yoriga qarab aniqlashga asoslanadi. Bundan birliklar (obyektlar) orasidagi «masofa» tushunchasi kelib chiqadi va u qiyofalar (obyektlar) bo‘yicha barcha o‘rganilayotgan belgilar qiymatlarining farqlari bilan o‘lchanadi. Muayyan masofa me’yori turli yo‘llar bilan aniqlanishi mumkin. Odatda «evklid masofasi» deb ataluvchi usul qo‘llanadi. Ya’ni, bunda
Ikki o‘lchamli tekislikda A va V nuqtalari orasidagi masofa kvadrat ildizi ostidan chiqarilgan ushub nuqtalarning abssissa va ordinata o‘qlari bo‘yicha koordinatalari orasidagi farqlarning kvadrati yig‘indisiga teng, ya’ni:
5.1-chizma. Yevklid masofasi.
Ko‘p o‘lchovli tekislikda k koordinatli p va q nuqtalari orasidagi masofa, ya’ni k belgilarning ayrim qiymatlari farqlar o‘rtacha kvadrati quyidagi formula yordamida aniqlanadi:
Ammo o‘z-o‘zidan ravshanki, har xil sifatli belgilarning absolut qiymatlari bilan ifodalangan bir nuqta bilan ikkinchi nuqta orasidagi farqlar kvadratlarini qo‘shib bo‘lmaydi. Dastlab har bir belgi bo‘yicha to‘plam birliklari orasidagi farqlarni biror nisbiy o‘lchovsiz ko‘rsatkich bilan ifodalash kerak. Bunday ko‘rsatkich sifatida odatda «normallashtirilgan farq» ishlatiladi, ya’ni:
Bu yerda: - p va q birlikka tegishli belgi qiymatlari orasidagi absolut farq;
xj - xj belgisining o‘rtacha kvadratik tafovuti;
dipq-normallashtirilgan farq, uning ishorasi (Q yoki -) ahamiyatga ega emas, tekislikda belgilar orasidagi «masofa» skolyar miqdordir (vektor miqdori emas).
Har qaysi belgi bo‘yicha o‘rtacha kvadratik tafovut va belgining birinchi obyektining ikkinchisidan, uchinchisidan va h.k., ikkinchi obyektning uchinchisidan, to‘rtinchisidan va h.k. uchinchi obyektning to‘rtinchisidan, beshinchisidan va h.k. va shunday ketma-ket tartibda barcha obyektlar uchun ma’lum belgi qiymatlarining juft farqlari hisoblanadi. So‘ngra ushbu juft farqlarni o‘rtacha kvadratik tafovutga bo‘lib, normalashtirilgan farqlar matritsasi tuziladi. Bunday hisoblashlar hamma belgilar uchun bajariladi va normalashtirilgan farqlar matritsalari tuziladi.
So‘ngra har bir obyekt uchun hamma belgilar bo‘yicha yevklid masofalari quyidagi formula yordamida hisoblanadi:
Natijada normalashtirilgan Yevklid masofalarining matritsasi vujudga keladi. Normal taqsimotli to‘plamda normalashtirilgan farqlarning barcha obyektlar bo‘yicha (butun matritsa bo‘yicha) o‘rtacha qiymati birga teng. Bu tekislikda belgining chegaraviy (keskin nuqtasi) masofasini aniqlash uchun juda muhimdir, chunki unga erishilgandan so‘ng obyektlarni klasterga birlashtirish to‘xtaydi.
Normalashtirilgan Yevklid masofasi o‘rtacha qiymatlari asosida obyektlar klasterlarga birlashtiriladi, oldin eng yaqin masofali, so‘ngra bir-biridan borgan sari uzoqlashib borayotgan obyektlar olinadi. Birinchi qadamda eng qisqa Yevklid masofasiga ega bo‘lgan obyekt birinchi obyekt bilan birga klasterga birlashadi. So‘ngra mazkur klaster uchun hamma belgilar bo‘yicha o‘rtacha normalashtirilgan farqlar va klasterdan boshqa obyektlargacha bo‘lgan Yevklid masofalari hisoblanadi. Shu tartibda birinchi klaster o‘rtacha yevklid masofa keskin nuqtaga erishgandan so‘ng ikkinchi klaster barpo etiladi. Shunday qilib, qadamma-qadam klasterga birlashtirish va yangi klasterlarni tuzish jarayoni davom etadi.
Klaster tahlil haqida bayon etilganlarni umumlashtirib, bajariladigan amallarni quyidagi ketma-ketlik shaklida tasvirlash mumkin:
har bir belgining to‘plam bo‘yicha o‘rtacha qiymatini hisoblash - ;
har bir belgi qiymatlarining o‘rtacha kvadratik tafovutlarini hisoblash- ;
har qaysi belgi bo‘yicha normalashtirilgan farqlarning matritsasini hisoblash - dipq ;
har bir juft to‘plam birliklari orasidagi yevklid masofalarni hisoblash - dpq ;
Yevklid masofalari orasida eng qisqasini tanlab olish–dpqqmin ;
eng qisqa Yevklid masofasiga ega bo‘lgan to‘plam birliklarini bir klasterga birlashtirish;
klasterdagi birliklar uchun barcha belgilarning o‘rtacha qiymatlarini hisoblash;
klaster bilan boshqa birliklar orasidagi yangi normalashtirilgan masofalarni hisoblash;
klaster bilan boshqa birliklar (yoki klasterlar) orasidagi yangi Yevklid masofalarini hisoblash;
Yevklid masofalari orasidan eng kichik miqdorligini tanlab olish;
(6-10) amallarni qaytadan bajarish va h.k.
Do'stlaringiz bilan baham: |