Data Mining dasturlarini ishlab chiquvchilar. Data Mining sohasida ishlab chiqilgan dasturiy ilovalar Business Intelligence deb nomlanadi va umuman olganda arzon hisoblanmaydi. Ushbu sohada Business Objects, Cognos, Information Builders, SAS Institute, Microsoft va Oracle kompaniyalari yetakchi hisoblanadi. Korxona doirasida Enterprise BI Suites zamonaviy ilovasi qo‘llaniladi.
Microsoft kompaniyasining Data Mining vositalari. Microsoft SQL Server 2000 tarkibida Data Mining vositasiga mansub 2 ta algoritm mavjud:
Microsoft Decision Trees, bunda yechim daraxti algoritmi asos qilib olingan;
Microsoft Clustering, bunda klasterli modellar algoritmi asos qilib olingan.
Microsoft bevosita boshqa kompaniyalarning mustaqil ishlanmalarini qo‘shib olish imkoniga ega. Microsoft SQL Server keyingi Yukon variantida qo‘shimcha algoritm kiritilgan.
Microsoft Clustering ilovasi. Birinchi navbatda klaster tushunchasini anglab olish uchun quyidagi misolni ko‘rib chiqamiz.
Misol sifatida uy telefonlari bilan foydalanuvchilari tahlil qilinganda quyidagilar aniqlandi. Birinchidan, foydalanuvchilarning bir qismi, asosan, o‘smir yoshidagi yigitlar bo‘lib chiqdi, chunki ular ajratilgan kanal orqali Internetda ishlashadilar. Ikkinchidan, foydalanuvchilarning yana bir qismi, asosan, katta yoshdagi ayollar bo‘lib
chiqdi. Chunki bu yoshdagilar uchun telefon do‘stlar bilan, deyarli, yagona muloqot vositasi hisoblanadi. Bunda o‘rta yoshdagi foydalanuvchilar bunday telefon aloqasiga qiziqish bildirmaydilar. Quyidagi chizmada ikkala toifali foydalanuvchilar keltirilgan:
E
Jinsi
A
10 20 30 40 50 60 70 80
Yoshi
E’tibor bering, ma’lumotlar chizmada ikki guruhga ajratilganligi yaqqol ko‘rinib turibdi, ammo murakkab vaziyatlarda ma’lumotlar o‘rtasida klasterlarni mavjudligini taxmin qilish qiyin.
Klaster tushunchasini aniq misolda ko‘rib chiqamiz va misolni yechishda Microsoft SQL Server 2000 (Enterprise Edition, Standard Edition yoki Personal Edition) paketi talab etiladi va bunda tahlil xizmatlari o‘rnatilgan bo‘lishi kerak.
Misol sifatida antispam filtrini shakllantirish tamoyilini ko‘rib chiqamiz. Ushbu filtrning asosiy funksiyasi – bu elektron pochtaga kelgan xatni spam ekanligini aniqlashdan iborat. Antispam filtrining algoritmini quyidagi g‘oya asosida tuzish mumkin: Spam xatlari to‘planib, unda uchraydigan so‘zlar tahlil qilinadi, masalan, so‘zlarning chastotasi hisoblanadi. Ushbu ma’lumotlar to‘plami klasterlarni aniqlashda qo‘llaniladi. Natijada qabul qilingan xatni spam ekanligi uning qaysi klasterga mansubligi orqali aniqlanadi.
Boshlang‘ich ma’lumotlar sifatida Hewlett-Packard kompaniyasi tomoni-dan to‘plangan ma’lumotlar bazasidan foydalanamiz. Ushbu baza www.ics.uci.edu/~mlearn/MLRepository.html manzilida CSV formatida joylash-tirilgan, unda spam bilan bog‘liq jadval mavjud. Ushbu jadvalda IsSpam ustuni (u ikki qiymat qabul qiladi: 1 – agar xat spam bo‘lsa,
aksincha 0), shu bilan birga unda ingliz tilida ko‘p uchraydigan so‘zlar chastotasi keltirilgan. Ushbu ma’lumotlarni Access formatiga o‘girtirib olamiz, va unda hisoblagich maydonini ham kiritamiz:
Ushbu jadval asosida klasterlarni aniqlaymiz, buning uchun Microsoft SQL Server ilovasining Analysis Manager xizmatidan foydalanamiz. Ushbu muhitda yangi ma’lumotlar bazasini yaratamiz va uni MyMiningData deb nomlaymiz va uni yuqoridagi ma’lumotlar bazasiga bog‘laymiz:
Shundan keyin, daraxtsimon ro‘yxatdan yoki menyuning New bandidan Mining Models tanalanadi. Ekrandagi Wizard masteridagi quyidagi savollarga javob berish kerak bo‘ladi: relyatsion ma’lumotlar, Microsoft Clustering algoritmi, ma’lumotlar bitta jadvalda joylashgan va uning nomi ko‘rsatiladi, xatning tartib raqami case key sifatida belgilanadi, klasterlarni yaratish uchun maydonlar tanlanadi, ushbu misolda 10 ta maydon tanlangan:
Modelni yaratishni tugatish uchun Relational Mining Model Editor redaktorida klasterlar sonini kiritamiz, masalan, 5 ta. Bevosita ushbu jarayon Tools menyusining Process Mining Model bandidan bajariladi:
Klasterlash natijalarini namoyish etish uchun Relational Mining Model Editor redaktoridagi View va Content menyusi tanlanadi. Bu yerda klasterlarni xossalarini birin-ketin o‘rganish uchun Content Detail bandidan foydalanish mumkin. Bu yerda 4681 ta kuzatuvdan eng katta qiymatga ega bo‘lgan variantlar, ya’ni 1806 va 1114 kattalikdagi variantlarni ko‘rib chiqamiz. Birida IsSpam qiymati nolga teng bo‘lsa (ya’ni, ushbu klasterga mansub bo‘lgan xatlar spam emasligi ehtimoli yuqori ekanligini anglatadi), ikkinchisida esa IsSpam qiymati birga teng (ya’ni, ushbu klasterga mansub bo‘lgan xatlar spam bo‘lish ehtimoli yuqori ekanligini anglatadi):
Uchinchi klasterda 653 ta xat bo‘lib, ushbu klasterga mansub bo‘lgan xatlar ham spam emasligi ehtimoli yuqori. Qolgan ikki klasterdan xatni qaysi variantga mansub ekanligini aniqlab bo‘lmaydi, chunki ularda oddiy xat ham, spam ham bo‘lishi mumkin.
Shunday qilib, antispam filtrini sozlash modeli yaratildi, undan foydalanish hech qanday qiyinchilik tug‘dirmaydi, ya’ni e-xat qaysi klasterga mansub bo‘lsa, shunga mos ravishda qaror qabul qilinadi.
Do'stlaringiz bilan baham: |