2. Model turlari
Yaratilayotgan modellar har xil murakkablikda bo’lishi mumkin. Yaratilgan modelning murakkabligi ishlatilgan usullar hamda tahlil qilinayotkan obekt murakkabliligiga bog’liq. Murakkab obekt deb – murakkab tuzilmaga ega bo’lagan kiruvchi o’zgaruvchilarni katta mioqdori ichki tuzilmani va tashqi omillarning o’zgaruvchanligi o’zaro bog’liqliglarining boshqaqlarbilan harakterlovchi obekt tushuniladi.
Tadqiq qilinayotkan obekt yoki tizmga oid harakter, xususiyatlar bo’yicha modellar turlari sinflari quyidagicha:
Dinamik (vaqt ichida o’zgaruvchi) va static
Statistic va determinatlashtirilgan;
Uzluksiz va diskret
Chiziqli va nochiziqli;
Statistik, ekspert, Data Mining usullariga asoslangan modellar;
Ta’birlovchi (sinflovchi) va tasniflovchi
Ta’birlovchi va tasniflovchi modellarni ko’rib chiqamiz. Aynan shunday bo’linish Data Mining masalalarini 2 ta sinfga bo’linishka olib keladi: ta’birlovchi va tasniflovchi.
Ta’birlovhi va sinflovchi (predictive) modellar.Bu modellar aniq ko’rinishda tabir uchun axborotga ega, bu degani sonli qiymatlar yoki sinfni tabirlashga imkon beradi.
Atributlarni sonli qiymatlarini ta’bir qiluvchi modellarni ta’birlovchi deb ataymiz ya’ni qiymatlarni ta’birlash mavjud qiymatlar asosida bajariladi. Data Mining ta’birlovchi modellari va konkret ob’ektning ishlash o’ziga hosliklarini ko’rsatishga va ular asosida ob’ektning kelajakdagi harakatlarini ta’bir qilishga imkon beradi. Modellashtirishdan foydalanganda (intuitsiyaga asoslangan tasavvurlardan farqli ravishda) o’zgruvchilar o’zaro bog’liklari miqdori baholanishi mumkin, bunda eng aniq model tanlanishi va eng ishonchli tabirlanishga imkon bo’ladi.
Sinflashdan farqli ravishda tabirlash masalalarida maqsadli deb uzluksiz o’zgaruvchilar hisoblanadi.
Ta’birlovchi modllar misoli – bu chiziqli regressiya modellari (sodda modellar) va neyron tarmoqlari asosidagi modellar.
Ob’ekt sinfi tabirlanishda yordam beruvchi modellarni sinflovchi deb nomlaymiz.
Shunday qilib yuqorida ko’rsatilgan modellar yordamida sinflash va ta’birlash masalalari yechiladi. Bunday yechim ikkita bosqichli jarayonni nazoratda tutadi: modelni yaratish va undan foydalanish
Data mining bu turdagi modellarini yaratishni chiquvchi parametrlarni kirishdagilarga bog’liqliklarini tushuntiruvchi qoidalarni topish deganidir. Sinflovchi modellar misoli-qarorlar daraxti asosidagi model, shuningdek Bayesovskaya usuli yordamida quyidagi masalalar yechiladi:
Yangi mijoz mavjud sinflar toplamidan birortasiga mansubmi
Bemorga aniq davolash kursi mos keladimi
Ishonchli bo’lmagan mijozlar guruhini aniqlash
Yangi mahsulotlar katalogini jo’natish kerak bo’lgan mijozlar guruhini aniqlash
Bu holda sinf modelining maqsadli (chiquvchi ) o’zgaruvchisi bo’ladi.
Diskriptiv yoki tasniflovchi (Discriptive) modellar predmet sohaning umumiy qonuniyatlarini tasniflaydi. Tasniflovchi modellar yordamida assotsiativ qoidalar topish masalalari klasterlash masalalari guruhlash umumlashtirish masalalari yechiladi.
Klasterlash modellari obyektlarni sinflash uchun ishlatiladimaqsadli sinlar to’plami Nomalum ekanligi sharti bilan ular segmentlangan modellarni yaratadilar.
Klasterlash modellari yordamida turli hil masalalar yechiladi. Masalan:Bir biriga yaqinligi bo’yicha Firma mijozlarini Guruh(klaster)larga bo’lish masalasi yechiladi.
Assotsiatsiya qoidalarini modellari Ma’lumotlar bazalaridagi bog’liq voqealar o’rtasidagi qonuniyatlarni topish uchun ishlatiladi.
Assotsiatsiya qoidalari modeli yordamida Ko’p uchraydigan mahsulot to’plamlarini aniqlash masalasi yechiladi
Modellar Fizik, Konseptual, Matematik,Anologli bo’lishi mumkin.
Matematik modelni(uni shuningdek belgili deb ham nomlanadi)ko’rib chiqamiz.
Obyektning matematik modeli-uni tenglama, tengsizlik, mantiqiy munosabat, grafik, va boshqa to’plam ko’rinishida aks ettirilishidir.
Matematik model yordamida tadqiq etilayotgan obyekt yoki tizimko’rinishi yaratiladi u shu obyektning malum hususiyatlarini o’rganish maqsadida matematik formulalarda ifoda etiladi. Matematik modelni qurishdan keyin uni malumotlar bilan to’ldirish va tegishli hisoblarni bajarish kerak.
Modelni qurishda ekzogen endogen o’zgaruvchilarni aniqlash kerak.
Ekzogen o’zgaruvchilar-modeldan tashqari beriladigan o’zgaruvchilar, ular oldindan ma’lum bo’ladi.
Endogen o’zgaruvchilar modeldagi hisoblar vaqtidan topiladigan o’zgaruvchila, ular tashqaridan berilmaydi.
Masala shartlarini formalizatsiyasi va mavjud bo’lsa maqsadli funksiyasi tasniflanadi.
Modelning eng sodda format tasnifi funksional bog’liqlik orqali ifodalanadi.
Y=f(x1,x2,………..xn)
Bu yerda x1 , x2,………..xn –mustaqil o’zgaruvchilar, y-bog’liq yoki maqsadli o’zgaruvchi
Modelning murakkabroq tasnifi quyidagicha bo’ladi:
Y=f(x1,x2,……..xn,z1,z2………zr,w1,w2,………..ws)bu yerda x1,x2,…xn mustaqil o’zgaruvchilar, o’rganilayotgan obyektning ichki hususiyatlari z1,z2,…zr mustaqil o’zgaruvchilar, o’rganilayotgan obyektga tasir etuvchi tashqi omillar.w1,w2….ws, hisobga olinmagan hususiyat yoki omillar. Y bog’liq yoki maqsadli o’zgaruvchi.
Imkon boricha maqsadli o’zgaruvchi va hamma hisobga olingan omillar orasidagi hamma qonuniyatlarni aniqlash kerak.Natijada qo’yilgan masalani yechishda muhim bo’lgan o’zgaruvchi va omillar aks ettirilgan matematik model tuziladi.
Esda tutish kerakki qurilayotgan matematik model asosidagi malumotlarda amalda doim xatoliklar uchrab turadi, shuning uchun matematik model o’rganilayotgan obyektning hususiyatlarini yaqinlashtirilgan tasnifi deb hisoblanadi.
Bog’liqlik aniq bo’lmagan holatlarda tahlilchining vazifasi bu funksional bog’liqlikni aniqlashdir.
Data mining masalalarining ko’pi aynan shu turdagi masalalar turiga kiradi.
Ma’lumotlarni tayyorlash bosqichini yakunidan so’ng modelni yetarlicha o’tish mumkin.
Oldingi maruzada modellashtirish jarayoninio’rganish uchun keltirilgan masalaga qaytamiz. Eslatib o’tish kerakki, misolda turistlik agentligining mijozlarini 2ta sinfga sinflash masalasi ko’rilgan:
1-sinf(qimmatroq oilaviy dam olishni yoqtiradigan mijozlar) va 2-sinf (arzonroq yoshlarga mos dam olishni yoqtiradigan mijozlar)
Modellashtirish jarayonini namoyish etish uchun sinflash masalasini tanlash sababi shundaki , aynan shu masalalar turida modellashtirish jarayoni ikkita alohida bosqichga albatta bo’linadi:Modelni konstruktsiyalash(qurish) va undan foydalanish.
Modelni qurish bosqishida bitta sinflovchi usul yoki algoritm yordamida model yaratiladi(mijozlarni klassifikatori). Modelni qurish natijasida biz bilgan qoidalarning biri qo’llaniladi: “Agar FOYDA>20 va OILAVIY HOLATI= “OILALI” demak bu holatda sinf 1sinfdir.
Bir tomondan , yechimi topilayotgan masala nuqtai nazaridan model eng ahamiyatli omillarni ajratib beradi. Sinflash masalasini yechimini topish uchun “Foyda” va “Oilaviy holati”o’zgaruvchilari eng ahamiyatli bo’ldi , qolgan omillar (o’rganilayotgan ma’lumotlar bazasinig qolgan ko’rsatkichlari) muhim hisoblanadi va modelga kiritilmadi
Boshqa tomondan, bu model boshqalar kabi to’liq emaslik hususiyatiga ega bo’lishi mumkin. Hisobga olinmagan factor misoli sifatida tabiat kataklizmlari bo’lishi mumkin, ular mijozning turistik agentlikning hizmatlaridan foydalanish istagiga tasir qilishi mumkin.
Modellarni qurish uchun Data Mining har xil usul va algoritmlari ishlatilishi mumkin. Bazi bir masalalar har xil usullar asosida qurilgan modellar yordamida yechimni topish mumkin. Har xil masalalarni yechish mumkin bo’lgan ideal model yo’q. shuning uchun ko’plab ishlab chiqaruvchilar Data Mining instrumentlariga xar xil modellar yaratish imkonini kiritadilar, ko’plari shuningdek modellarni kengaytirish imkonini ta’minlaydi. Data Miningning bazi instrumentlari aniq qo’llanish soxalari uchun maxsus yaratiladi .
Data Mining usullarining hilma hilligi ichida shunday usul yoki usullar kombinatsiyasi tanlanilishi kerakki, ular ishlanilishda qurilgan model tadqiq qilinayotgan obyektni eng yaxshi tarzda tasniflaydi.
Bazida qo’llanilayotgan qonuniyatlarni aniqlash uchun bir nechta usul va algoritmlardan foydalanish kerak bo’ladi. Bunday holatda bitta usullar modellashtirish boshida, qolganlari keying bosqichlarida ishlatiladi. Misol: mijozlarni bir xil turdagi guruhlarni aniqlash uchun klasterlashning bitta usuli ishlatilgan, natijada mijozlar guruhlarga bo’lingan, har bir guruhga kod berilgan; keyin esa biz yechimlar daraxti usulidan foydalandik. Guruh kodi (avvalgi usulning ishlash natijasi) olingan qonuniyatlarning interpritatsiyalash uchun ishlatiladi.
Model quriladigan usul tanlovida masala qo’yilisghini hisobga olib, dastlabki malumotlarning to’plamining o’ziga hosliklari yechilayotgan masala spesfikatsiya chiqishda olinayotgan natijalar hisobga olinishi kerak.
Masala qo’yilishi masala mazmunini formalizatsiyalaydi, bunda sinflash masalasini yechishda kirish va chiqish o’zgaruvchilarini mavjudligi “O’qituvchi bilan o’qish” usullaridan birini tanlashni belgilaydi. Faqat kirish o’zgaruvchilari mavjudligini boshqa usul tanlanilishini belgilaydi- “O’qituvchisiz o’qish”usulini.
Malumotlarni dastlabki to’plamini o’ziga hosliklari ichida, masalan, uning quyidagi harakteristikalari bo’lishi mumkin
To’plamda yozuvlar miqdori;
Malumotlar to’plamidagi yozuvlar miqdori va kirish o’zgaruvchilar miqdori orasidagi nisbat;
Tanlovlar mavjudligi, chunki ba’zi usullar ma’lumotlarda tanalovlar mavjudligiga alohida ta’sirchan bo’ladi. Bu dalilni shu kabi ma’lumotlarda model ko’rinishida hisobga olinishi kerak.
Yuqorida aytilganidek Data Mining interaktiv jarayondir.
Interatsiya - bu siklik boshqaruvchu tuzilma, u alternativalardan tanlashni va tanlanganga rioya qilishni o’z ichiga oladi.
Alternativalardan tanlash bu holatda – modelni baholash bosqichidir. Agar Model mos kelsa , uni ishltish mumkin. Ma’lumotlarni tayyorlash , modelni qurish, modelni baholash va eng yaxshisini tanlash etablaari siklni tashkil etadi.
Agar qaysidir sabablarga ko’ra qurilgan model mos kelmay qolsa, sikl qaytariladi va quyidagi bosqichlardan biri bajariladi:
Ma’lumotlarni tayyorlash (model tushmasligini sababi – malumotlar bo’lsa);
Modelni qurish (tushmaslik sababi modelning ichki parametrlarida bo’lsa).
Tadbiq etilayotgan ma’lumotlarni spetsifikatsiya xususiyatlarini aniqlah uchun bazida bir nechta interatsiya talab qilinadi.
Sikl N t-1 ma’lumotlarni tayyorlash -> N t-1 modelini qurish -> baholash va modelini tanlash
Sikl N t ma’lumotlarni tayyorlash -> N t modelini qurish -> baholash va modelini tanlash.
Sikl N t+1 ma’lumotlarni tayyorlash -> N t+1 modelini qurish -> baholash va modelini tanlash
Bazida ma’lumotlarni har xil nuqtai nazarda taqqoslash va tahlil qilish uchun bir nechta usullardan bir vaqtda foydalanish maqsadga muvofiq bo’ladi.
Modelni tekshirish deganda uni haqiqiyligiga va adekvatligini tekshirish nazarda tutiladi. Bu tekshirish modelni borliqqa mosligini (to’g’ri kelishini) darajasini aniqlashdan iboratdir
Model adekvatligi testlash yo’li bilan tekshiriladi.
Model adekvatligi (adequacy of a model) – modelni modellshtirilayitgan obyekt yoki jarayonga mos kelishi.
Haqiqiylik va adekvatlik tushunchalari shartlidir, chuki biz modelni real ob’ektga to’liq to’g’ri kelishiga umid qilmaymiz, aks holda bu model emas, ob’ektni o’zi bo’lardi. Shunig uchun modellashtirish jarayonida umumiy model adekvatiligini emas balkim olib borilayotgan tadqiqotning nuqtai nazardan muhim hisoblangan hususiyatlarining adekvatligini hisobga olish kerak. Modelni tekshirish jarayonida modelga hamma mumkin bo’lgan amallarni kirtilishini o’rnatish shart. Bu muammoni yechimini murakkabligi yechilayotgan masala murakkabligiga bog’liq bo’ladi.
Modelni tekshirishda u menejerga qaror qabul qilishda qay darajada yordam berishini aniqlash ham kiradi.
Modelni baholash uni to’g’riligini tekshirishni o’z ichiga oladi. Qurilgan modelni baholanishi uni testlash yo’li bilan amalga oshiriladi.
Modelni testlash deganda qurilgan modelni ma’lumotlar bilan to’ldirib “Progonka” qilish tushuniladi. Undan maqsad uning harakteristikalarini aniqlash bo’ladi, shunigndek – uning ishchanligini tekshiriladi. Modelni testlash o’z ischiga ko’plab sinovlarini o’tkazishni oladi. Modelning kirishiga har xil hajmdagi tanlamalar yuborilishi mumkin. Statistika nuqtai nazarida model aniqligi tatqiq qilinayotgan ma’lumotlar miqdori ko’payishi bilan ko’payadi. Juda katta ma’lumotlar bazasida modellarni qurish uchun asos bo’ladigan algoritmlar masshtablanish hususiyatiga ega bo’lishlari shart.
Agar model yetarli darajada murakkab bo’lsa, uni o’qitish va keyingi baholashga ko’p vaqt talab etilsa ba’zida tanlanmaning kichik qismida modelni qurish testlash mumkin bo’ladi. Lekin bu variant faqat bir jinsli ma’lumotlar uchun mos keladi, aks holda hamma ruhsat etilgan ma’lumotlarni ishlatish kerak bo’ladi. Qurilgan modellarni umumlashgan qobiliyatlarini aniqlash uchun har xil tanlanmalarda testlash tafsiya etiladi. Tajribalar vaqtida tanlanmalar hajmi (yozuvlar miqdori), kirish va chiqish o’zgaruvchilar tanlanishini o’zgartirish har xil murakkablik darajasidagi tanlanmalarni ishlatish mumkin.
Aniqlangan nisbat va qonuniyatlar predmet sohasining eksperti tomonidan tahlil qilinishi kerak. U aniqlangan qonuniyatlar qanday ekanligini aniqlab beradi. ( balkim juda umumiy yoki tor)
Olingan modellarni natijalarini baholash uchun predmet sohani mutahasislarini bilimlaridan foydalanish kerak. Agar olingan modelning natijalarini eksport qoniqarsiz deb topsa, Data Mining jarayonining avvalgi qadamlarining biriga qaytish kerak bo’ladi, aynan: ma’lumotlarni tayyorlash modelini qurish modelini tanlash.
Modellashtirish natijalari eksportga maqul kelsa, uni (modelini) real masalalarni yechish uchun ishlatish mumkin.
Agar modellashtirish natijasida bir nechta model qurilgan bo’lsa,ularni baholash asosida biz eng yaxshisini tanlab olishimiz mumkin.Tekshirish va ularni harakteristikalari asosida har xil modellarni baholash hamda ekspertlar fikrini inobatga olish natijasida eng yaxshisi tanlanadi,ko’p hollarda bu oddiy masala emas.
Modelni tanlanishini belgilovchi asosiy sifatlari – bu model aniqligi va algoritmni ishlashini samaradorligi.
Ba’zi dasturiy mahsulotlarga modelni tanlash uchun ishlab chiqarilgan qator usullar amalga oshirilgan.Ulardan ko’pchiligi “modellarni raqobatdosh baholash”ga asoslangan u bitta ma’lumotlar to’plamiga har xil modellarni qo’llash va ular harakteristikalarini taqqoslashga asoslangan.
Masalan, Statistika (Statsoft) paketida bu usular “tabirlovchi ma’lumotlar olish ” yadrosi sifatida ko’riladi,ular o’z ichiga oladi (ovoz berish, markazlashtirish);
Modelni testlash,baholash va tanlashdan keyin modelni qo’llash bosqichi keladi.Bu bosqichda tanlangan model Data Mining jarayonini boshida qo’yilgan masalalarni yechish maqsadida yangi ma’lumotlarga qo’llaniladi.Sinflovchi va tabirlovchi modellar uchun bu bosqichda maqsadli (chiqish) atributi (target atribute) tabirlanadi.
Do'stlaringiz bilan baham: |