O'Z-O'ZI-O'ZI NAZORAT UCHUN SAVOLLAR
Klassifikatsiya va regressiya masalasida nimani aniqlash kerak?
Klassifikatsiya va regressiya muammosini qanday rasmiy tasvirlash mumkin?
Klassifikatsiya va regressiya masalalarida o‘zgaruvchilar o‘rtasidagi funksional bog‘liqlikni qanday usullar bilan ifodalash mumkin?
Qaror daraxtlarida qoidalar qanday ko'rinishda ifodalanadi?
Daraxt tugunida qanday taqqoslashlar amalga oshiriladi?
Daraxt novdasi qanday mumkin bo'lgan qiymatga mos keladi?
O'zgaruvchining qaysi qiymatlari daraxtlarning barglariga mos keladi?
Ob'ektni klassifikatsiyaning elementar qoidalarini hosil qilish algoritmi qanday nomlanadi?
1R algoritmi ortida qanday g'oya bor?
1R algoritmidagi katta muammo nimada?
Nima uchun 1R-algoritmi ko'p hollarda amalda juda samarali?
Ma'ruza 4. Klasterlash masalalarini yechish uchun ma'lumotlarni birlamchi qayta ishlash
REJA
Klasterlash muammosi bayoni
Klasterlash muammosining rasmiy bayoni
Klaster algoritmlarida qo'llaniladigan masofaga asoslangan yaqinlik o'lchovlari
Klasterlashning asosiy algoritmlari
Tayanch tushunchalar: klaster, klaster tahlili, klasterlash, Evklid masofasi, dendrogram, ierarxik algoritmlar, aglomerativ algoritmlar, bo‘linuvchi algoritmlar, ierarxik bo‘lmagan algoritmlar, masofa o‘lchovi, bo‘lim matritsasi.
1. Klasterlash muammosining bayoni
Klaster (inglizcha klaster "klaster, cho'tka, to'da") - mustaqil birlik sifatida qaralishi mumkin bo'lgan bir nechta bir hil elementlarning birlashishi.
Ingliz tilidan kelib chiqqan klaster so'zi (klaster), to'plam, to'plam, guruh deb tarjima qilingan. Adabiyotda qo'llaniladigan tegishli tushunchalar sinf, takson, kondensatsiya.
Klaster tahliliga oid birinchi nashrlar 1930-yillarning oxirida paydo bo'lgan. o'tgan asrda, ammo bu usullarning faol rivojlanishi va ularning keng qo'llanilishi 60-yillarning oxiri - 70-yillarning boshlarida boshlangan. Keyinchalik ko'p qirrali tahlilning ushbu sohasi jadal rivojlandi. Yangi usullar paydo bo'ldi, allaqachon ma'lum bo'lgan algoritmlarning modifikatsiyalari, klaster tahlilini qo'llash sohasi sezilarli darajada kengaydi. Agar dastlab psixologiya, arxeologiya, biologiya fanlarida ko`p o`lchovli klassifikatsiya usullari qo`llanilsa, hozir ular sotsiologiya, iqtisod, statistika, tarixiy tadqiqotlarda faol qo`llanila boshlandi. Ulardan foydalanish, ayniqsa, kompyuterlar va, xususan, shaxsiy kompyuterlarning paydo bo'lishi va rivojlanishi bilan kengaydi. Bu, birinchi navbatda, katta hajmdagi ma'lumotlarni qayta ishlashning mashaqqatliligi bilan bog'liq (yirik matritsalarni hisoblash va inversiya qilish).
Klaster tahlilining katta afzalligi shundaki, u ob'ektlarni bitta parametr bo'yicha emas, balki butun xususiyatlar to'plami bo'yicha ajratish imkonini beradi. Bundan tashqari, klaster tahlili, ko'pgina matematik va statistik usullardan farqli o'laroq, ko'rib chiqilayotgan ob'ektlar turiga hech qanday cheklovlar qo'ymaydi va deyarli o'zboshimchalik bilan xarakterdagi turli xil dastlabki ma'lumotlarni ko'rib chiqishga imkon beradi. Bu, masalan, an'anaviy ekonometrik yondashuvlarni qo'llashni qiyinlashtiradigan heterojen ko'rsatkichlar mavjud bo'lganda, kon'yukturani prognozlash uchun katta ahamiyatga ega.
Klaster tahlili sizga juda katta hajmdagi ma'lumotlarni ko'rib chiqish va katta hajmdagi ma'lumotlarni keskin qisqartirish, siqish, ularni ixcham va ingl.
Klasterlashning vazifasi o'rganilayotgan ob'ektlar to'plamini klasterlar deb ataladigan "o'xshash" ob'ektlar guruhlariga bo'lishdir. Elementlar to'plamini klasterlarga bo'lish masalasini hal qilish ko'pincha klaster tahlili deb ataladi.
Klassifikatsiya muammosini hal qilish ma'lumotlar ob'ektlarining har biriga oldindan belgilangan sinflarning biriga (yoki bir nechtasiga) va oxir-oqibat, ma'lumotlar ob'ektlari to'plamining bo'linishini belgilaydigan ma'lumotlar modeli uchun klassifikatsiya usullaridan biriga tayinlashdir. sinflar. Klasterlash masalasida ma'lumotlar ob'ektlarining har birini tayinlash ilgari aniqlanmagan sinflarning biriga (yoki bir nechtasiga) amalga oshiriladi. Ma'lumotlar ob'ektlarini klasterlarga bo'lish ularning bir vaqtning o'zida shakllanishi bilan amalga oshiriladi. Klasterlarning ta'rifi va ma'lumotlar ob'ektlarining ularga bo'linishi klasterlash muammosining yechimi bo'lgan yakuniy ma'lumotlar modelida ifodalanadi.
Klasterlash muammosining ma'lumotlarni qazib olish vazifalari ro'yxatidagi alohida o'rni tufayli uni hal qilishning ko'plab usullari ishlab chiqilgan. Ulardan biri ma'lumotlar ob'ekti berilgan sinfga tegishli yoki yo'qligini ko'rsatadigan sinflarning xarakterli funksiyalari to'plamini qurishdir. Sinfning xarakteristik funksiyasi ikki xil bo'lishi mumkin:
Ikki aniq qiymatdan birini qabul qiladigan diskret funksiya, uning ma'nosi ma'lumotlar ob'ekti berilgan sinfga tegishli / tegishli emasligini anglatadi.
Haqiqiy qiymatlarni, masalan, 0 ... 1 oralig'idan oladigan funksiya. Funksiya qiymati bir ga qanchalik yaqin bo'lsa, ma'lumotlar ob'ekti berilgan sinfga tegishli bo'ladi.
Klasterlash muammosini hal qilishning umumiy yondashuvi L. Zade loyqa to'plamlar nazariyasini ishlab chiqqanidan keyin mumkin bo'ldi. Ushbu yondashuv doirasida sifat tushunchalarini, real ma'lumotlar va jarayonlarga xos bo'lgan noaniqlikni rasmiylashtirish mumkin. Ushbu yondashuvning muvaffaqiyati, shuningdek, shaxsning ma'lumotlarni tahlil qilish jarayonida ishtirok etishi bilan izohlanadi, uning baholari va mulohazalari noaniq va sub'ektivdir. Loyqa to‘plamlar nazariyasining asoschisi L.Zodehning quyidagi fikrlarini keltirish o‘rinlidir: “...bizga yangicha nuqtai nazar, yangi tushuncha va usullar majmuasi kerak, unda loyqalik umuminsoniy voqelik sifatida qabul qilinadi. inson mavjudligi haqida."
Klasterlash muammosini hal qilish uchun loyqa to'plamlar nazariyasini qo'llagan holda, ushbu muammoni hal qiladigan usullarga loyqalarni kiritishning turli xil variantlari mavjud. Noaniqlikni ma'lumotlarni taqdim etishda ham, ularning munosabatlarini tavsiflashda ham hisobga olish mumkin. Bundan tashqari, ma'lumotlar miqdoriy xarakterga ega yoki bo'lmasligi mumkin. Shunga qaramay, ko'plab amaliy muammolarda tekshirilishi kerak bo'lgan ma'lumotlar inson faoliyatining ma'lum bir sohasida to'plangan tajriba natijasidir va ko'pincha miqdoriy ko'rinishga ega. O'rganilayotgan ma'lumotlarning loyqaligini hisobga olish, umumiy holatda, jiddiy muammodir. Shu sababli, mavjud algoritmlarda ham, ushbu nashrda taklif qilingan yondashuvda ham dastlabki ma'lumotlarning noaniqligi haqida hech qanday taxminlar mavjud emas.
Ma'lumotlar aniq va miqdoriy deb hisoblanadi. Loyqa ma'lumotlar munosabatlarini tavsiflashning ko'plab usullari mavjud. Hozirgi vaqtda qo'llanilayotgan loyqa ma'lumotlarni klasterlash algoritmlarida keng qo'llanilgan ana shunday usullardan biri ma'lumotlar o'rtasidagi munosabatni ularning ayrim mos yozuvlar namunalari - klaster markazlari bilan bog'lash orqali tavsiflashdir. Ushbu algoritmlarda loyqalik klasterlarning markazida yadro joylashgan loyqa to'plamlar sifatida tavsiflanishida namoyon bo'ladi. Boshqa tomondan, noaniqlik sharoitida ma'lumotlarning o'zaro bog'liqligi, klaster markazi tushunchasiga murojaat qilmasdan, alohida ma'lumotlar namunalari o'rtasidagi noaniq munosabatlar apparati yordamida hisobga olinishi mumkin. Ushbu yondashuv amalda hali keng qo'llanilmagan, garchi u ko'proq universaldir.
Do'stlaringiz bilan baham: |