Laboratorya ishi
Mavzu: Naive Bayes klassifikatori algoritmlari
Nazariy qism:
Naive Bayes klassifikatori turli xil mashinali o'qitish muammolarida foydalanish uchun moslashtirilgan Bayes teoremasiga asoslangan. Bularga tasniflash, klasterlash va tarmoq tahlili kiradi. O’qituvchi orqali o'rganish haqida gap ketganda, regressiya va tasnif o'rtasidagi farq haqida qisqacha eslatma:
Regressiya doimiy maqsadli o'zgaruvchining (masalan, uyning narxi) qiymatini bashorat qilishga qaratilgan.
Tasniflash toifali maqsadli o'zgaruvchining sinf belgilarini bashorat qilishga qaratilgan (masalan, spam elektron pochta/spam bo'lmagan elektron pochta).
1-rasm. Mashinali o'qitish algoritmlarining tasnifi
Sodda Bayesning asosiy taxmini shundan iboratki, bashorat qiluvchilar (atributlar/mustaqil o'zgaruvchilar) bir-biridan mustaqildir. Bu katta taxmin, chunki real hayotda o'zgaruvchilar o'rtasida hech bo'lmaganda qandaydir korrelyatsiya borligini ko'rsatish oson. Aynan shu mustaqillik taxmini Bayes tasnifini "sodda" qiladi.
Biroq, Naive Bayes algoritmi mustaqillik faraziga qaramay, tasniflash muammolarida juda yaxshi ishlashini qayta-qayta ko'rsatdi. Shu bilan birga, bu tezkor algoritmdir, chunki u ko'p o'lchovli korrelyatsiyalarni ko'rib chiqishga hojat qoldirmasdan bir nechta bashorat qiluvchilarni o'z ichiga olish uchun osonlikcha kengaytiriladi.
Shartli ehtimollar
Naive Bayesni tushunish uchun birinchi navbatda shartli ehtimollarni tushunishimiz kerak. Buning uchun biz quyidagi misoldan foydalanamiz.
Aytaylik, bizda qizil va qora sharlar bilan to'ldirilgan chelak bor. Hammasi bo'lib 15 ta shar bor: 7 ta qizil va 8 ta qora.
2-rasm. Qizil va qora sharlar solingan chelak
Chelakdan qizil to'pni tasodifiy tortib olish ehtimoli 7/15 ga teng. Siz uni P (qizil) = 7/15 kabi yozishingiz mumkin.
Agar biz sharlarni bir-birining ustiga qo'ymasdan birma-bir oladigan bo'lsak, birinchi urinishda qizilni chiqarishdan keyin ikkinchi urinishda qora shar paydo bo'lishi ehtimoli qanday?
Yuqoridagi savol bizga ikkinchi urinishdan oldin bajarilishi kerak bo'lgan shartni ta'minlash uchun yozilganligini ko'rishingiz mumkin. Bu shart qizil sharni birinchi urinishda chiqarish kerakligini aytadi.
Yuqorida aytib o'tilganidek, birinchi urinishda qizil sharni olish ehtimoli (P (qizil)) 7/15 ni tashkil qiladi. Chelakda 6 ta qizil va 8 ta qora bo'lgan 14 ta shar bor. Shuning uchun, keyingi safar qora sharning tushishi ehtimoli 8/14 = 4/7.
Buni shartli ehtimol sifatida yozishimiz mumkin:
P(qora|qizil) = 4/7. (o'qing: qora va qizil ehtimollik)
Biz buni ham ko'rishimiz mumkin
P (qizil va qora) = P (qizil) * P (qora | qizil) = 7/15 * 8/14 = 4/15.
Xuddi shunday
P (qora va qizil) = P (qora) * P (qizil | qora) = 8/15 * 7/14 = 4/15.
Bu xolatda Beyes teoremasi bo’yicha quyidagicha bo’ladi:
Agar bu to'g'ri yoki yo'qligini tekshirmoqchi bo'lsangiz, yuqoridagi misoldagi raqamlarni shartli ehtimollarga qo'shishingiz mumkin va siz ikkala tomonning 4/7 ekanligini topasiz.
Naive Bayes klassifikatori
Endi yuqoridagi tenglamani olib, uni tasniflash masalalari uchun qulayroq qilish uchun belgini o‘zgartiramiz.
Bu yerda:
P(C|x) - bashorat qiluvchi x (atribut/mustaqil o'zgaruvchi) berilgan C sinfining (maqsadli o'zgaruvchi) posterior ehtimoli;
P (C) - C sinfining oldingi ehtimoli;
P(x|C) - ehtimollik, ya'ni berilgan S sinfining bashorat qiluvchisi x ning ehtimolligi;
P(x) - bashorat qiluvchi x ning oldingi ehtimoli;
Kichkina k - bu turli sinflarni ajratib ko'rsatish uchun shunchaki belgi, chunki tasniflash stsenariysida siz kamida 2 ta alohida sinfga ega bo'lasiz (masalan, spam/spam emas, qizil shar/qora to'p).
Amalda faqat yuqoridagi tenglamaning numeratori qiziqish uyg'otadi, chunki maxraj C ga bog'liq emas. Shuningdek, barcha x atribut qiymatlari ma'lum bo'lganligi sababli, maxraj amalda doimiy hisoblanadi.
Shunday qilib, yuqoridagilarni mustaqillik farazi bilan birlashtirib va bir nechta bashorat qiluvchilarni hisobga olgan holda tasniflash tenglamasi quyidagicha bo'ladi:
E'tibor bering, model tomonidan bashorat qilingan sinf belgisi eng yuqori ehtimoli bo'lgan belgidir. Misol uchun, agar P(Class_red|X) = 0,6 va P(Class_black|X) = 0,4 bo'lsa, bashorat qilingan sinf belgisi "qizil" bo'ladi, chunki 0,6 > 0,4.
Topshiriqlar:
Naive Bayes klassifikatori algoritmlari taxlil qiling.
Scikit-learn kutubxonasini o’rnating.
Ixtiyoriy ehtimollik masalasini taxlil qilish(shaxmatdagi yurish, chelakdagi sharlardan faqat qora sharlari olish, futbol o’yini natijasini baholash va hokazo)
Do'stlaringiz bilan baham: |