Bayesning sodda tasniflagichlari, mashhur Bayesning ehtimollik teoremasiga asoslangan tasniflagichlar oilasi, ayniqsa, hujjatlarni tasniflash va kasalliklarni bashorat qilish sohalarida sodda, ammo yaxshi ishlaydigan modellarni yaratishi bilan mashhur.
Seriyaning ushbu birinchi qismida biz sodda Bayes tasniflagichlari nazariyasini ko'rib chiqamiz va matn tasnifining asosiy tushunchalarini kiritamiz. Quyidagi maqolalarda biz ushbu tushunchalarni sodda Bayes spam-filtrini o'rgatish va sodda Bayesni so'zlar asosida qo'shiq tasnifiga qo'llash uchun amalga oshiramiz.
Kirish
Yarim asrdan ko'proq vaqt oldin olimlar savolga jiddiy munosabatda bo'lishdi: "biz mavjud ma'lumotlardan o'rganadigan va avtomatik ravishda to'g'ri qaror va bashorat qiladigan modelni yarata olamizmi?"Orqaga qarab, bu deyarli ritorik savolga o'xshaydi va javobni naqshlarni tasniflash, mashinani o'rganish va sun'iy intellekt sohalaridan kelib chiqadigan ko'plab dasturlarda topish mumkin.
Data from various sensoringKuchli ta'lim algoritmlarni va domen bilim bilan birga turli sensoring qurilmalar ma'lumotlar biz endi bizning kundalik hayotda berilgan uchun olmoq ko'p buyuk ixtirolar olib: Google kabi qidiruv motorlar orqali Internet so'rovlarni, pochta da matn tan, supermarketda shtrix skanerlar, kasalliklar tashxisi, Siri tomonidan nutq tan yoki Google endi bizning mobil telefonda, faqat bir necha ism.
One of the sub-fields of Bashoratli modellashtirishning pastki maydonlaridan biribu nazorat qilinadigan naqsh tasnifi; nazorat qilinadigan naqsh tasnifi-bu belgilangan o'quv ma'lumotlari asosida modelni tayyorlash vazifasi bo'lib, undan keyin yangi ob'ektlarga oldindan belgilangan sinf yorlig'ini tayinlash uchun foydalanish mumkin. Ushbu maqola davomida o'rganadigan misollardan biri bu yangi matnli xabarni spam yoki spam deb tasniflash mumkinligini taxmin qilish uchun sodda Bayes tasniflagichlari orqali spam-filtrlashdir. Bayesning sodda tasniflagichlari, mashhur Bayesning ehtimollik teoremasiga asoslangan tasniflagichlar oilasi, ayniqsa, hujjatlarni tasniflash va kasalliklarni bashorat qilish sohalarida sodda, ammo yaxshi ishlaydigan modellarni yaratishi bilan mashhur.
1-rasm.
Naif Bayes Tasnifi
Naif Bayes tasniflagichlarioddiy, ammo juda samarali ekanligi bilan mashhur bo'lgan chiziqli tasniflagichlardir. Bayes sodda tasniflagichlarining ehtimoliy modeli Bayes teoremasiga asoslangan va Naif sifatinaivema'lumotlar to'plamidagi xususiyatlar o'zaro mustaqil degan taxmindan kelib chiqadi. Amalda, mustaqillik taxmin ko'pincha buzilgan, lekin sodda Bayes tasniflagichlar hali bu xayoliy taxmin ostida juda yaxshi amalga moyil [1]. Ayniqsa, kichik namunaviy o'lchamlar uchun Naif Bayes tasniflagichlari yanada kuchli alternativalardan ustun bo'lishi mumkin [2].
Nisbatan mustahkam, amalga oshirilishi oson, tezkor va aniq, sodda Bayes tasniflagichlari turli sohalarda qo'llaniladi. Ba'zi misollar kasalliklar diagnostikasi va davolash jarayonlari haqida qaror qabul qilish o'z ichiga oladi [3], taksonomik tadqiqotlar RNK ketliklar tasnifi [4], va e-mail mijozlar spam filtrlash [5].
Biroq, mustaqillik taxminlarining kuchli buzilishi va chiziqli bo'lmagan tasniflash muammolari sodda Bayes tasniflagichlarining juda yomon ishlashiga olib kelishi mumkin.
Shuni yodda tutishimiz kerakki, ma'lumotlar turi va hal qilinadigan turdagi muammo qaysi tasniflash modelini tanlashni belgilaydi. Amalda, har doim ma'lum ma'lumotlar to'plamidagi turli xil tasniflash modellarini taqqoslash va bashorat qilish ko'rsatkichlarini hamda hisoblash samaradorligini hisobga olish tavsiya etiladi.
Keyingi bo'limlarda biz sodda Bayes klassifikatorining ehtimollik modelini batafsil ko'rib chiqamiz va kontseptsiyani oddiy o'yinchoq muammosiga qo'llaymiz. Keyinchalik, biz Python-da sodda Bayes tasniflagichini o'rgatish uchun ommaviy ravishda mavjud bo'lgan SMS (matnli xabar) to'plamidan foydalanamiz, bu bizga ko'rinmaydigan xabarlarni spam yoki jambon sifatida tasniflashga imkon beradi.
2-rasm.Chiziqli (A) va chiziqli bo'lmagan muammolar (B). Ikki xil sinf uchun tasodifiy namunalar rangli sharlar sifatida ko'rsatiladi va nuqta chiziqlar tasniflagichlar qaror chegaralarini hisoblash orqali taxmin qilishga urinayotgan sinf chegaralarini ko'rsatadi. Chiziqli bo'lmagan muammo (B) chiziqli klassifikatorlar, masalan, sodda Bayes, mos kelmaydigan holat bo'ladi, chunki sinflar chiziqli ravishda ajratilmaydi. Bunday stsenariyda chiziqli bo'lmagan tasniflagichlarga (masalan,instansiyagaasoslangan eng yaqin qo'shni tasniflagichlarga) ustunlik berish kerak.
Posterior Ehtimolliklar
Bayes tasniflagichlarining sodda ishlashini tushunish uchun biz Bayes qoidasi tushunchasini qisqacha takrorlashimiz kerak. Tomas Bayes (1701-1761) tomonidan ishlab chiqilgan ehtimollik modeli juda sodda, ammo kuchli; uni oddiy so'zlar bilan quyidagicha yozish mumkin:
posterior ehtimoli = shartli ehtimoli oldindan ehtimollikevidenceposterior ehtimoli = shartli ehtimoli⋅oldin ehtimollikevidence
Bayes teoremasi Bayes tasnifi sodda tushunchasining asosini tashkil etadi. Theorqa ehtimollik, tasniflash muammosi kontekstida quyidagicha talqin qilinishi mumkin: "muayyan ob'ektningiikuzatilgan xususiyat qiymatlarini hisobga olgan holda i i sinfiga tegishli bo'lish ehtimoli qanday?"Aniqroq misol quyidagicha bo'ladi:" qandli diabetga chalingan odamda nonushta oldidan qon glyukozasini o'lchash uchun ma'lum bir qiymat va nonushtadan keyin qon glyukozasini o'lchash uchun ma'lum bir qiymat berilishi ehtimoli qanday?”
P(qandli diabetningxxi),xi=[90mg/dl,145mg/dl]P (qandli∣diabetningxii),xi=[90mg/dl, 145mg / dl]
Ruxsat bering
xixinamunaning xususiylik vektoribo'lishi i,i'ni{1,2,...,n}i, i∈{1,2,..., n},
ωjsinfningjnotasijbo'lishi,jsinfning{1,2,...,m}j,jko'zlarningfoydalanishi{1,2,..., m},
vap(xx∣ij)p(xi(xij)xisinfga tegishli bo'lgan x i XI namunani kuzatish ehtimoliωjωjbo'lishi mumkin.
Orqa ehtimollikning umumiy yozuvi quyidagicha yozilishi mumkin
P(ωj∣xi)=P(x, men∣ωj)⋅P(ωj)P(xi)P(ωj∣xi)=P(xi∣ωj)⋅P(ωj)P(xi)
Bayesning sodda ehtimolligidagi maqsad funktsiyasi qaror qabul qilish qoidasini shakllantirish uchun o'quv ma'lumotlarini hisobga olgan holda orqa ehtimollikni maksimal darajaga ko'tarishdir.
Yuqoridagi misolimizni davom ettirish uchun biz qaror qabul qilish qoidasini orqa ehtimolliklar asosida quyidagicha shakllantirishimiz mumkin:
shaxs qandli diabetga chalinadi AgarP(qandli diabetxi)p(yo'q-qandli diabetxi) bo'lsa, else insonni sog'lom deb tasniflaydi.kishi bor diabet ifP(diabet∣xi)≥P(emas-diabet∣raisi si),boshqa tasnifi shaxs sifatida sog'lom.
Sinf-shartli ehtimolliklar
Bayes tasniflagichlari chiqaradigan taxminlardan biri bu namunalari. i.d.
Qisqartmai.i.d."mustaqil va bir xil taqsimlangan" degan ma'noni anglatadi va bir-biridan mustaqil bo'lgan va shunga o'xshash ehtimollik taqsimotidan kelib chiqqan tasodifiy o'zgaruvchilarni tavsiflaydi. Mustaqillik shuni anglatadiki, bitta kuzatuv ehtimoli boshqa kuzatuv ehtimoliga ta'sir qilmaydi (masalan, vaqt qatorlari va tarmoq grafikalari mustaqil emas).I.i.d.ning mashhur misollaridan biri.o'zgaruvchilar klassik tanga uchirish hisoblanadi: birinchi tanga ShS hokazolar ikkinchi tanga ShS va natijalarini ta'sir qilmaydi. Adolatli tanga hisobga olinsa, tanga qanchalik tez-tez aylantirilishidan qat'i nazar, tanga "boshlarga" tushish ehtimoli har doim 0,5 ga teng.
Bayes sodda tasniflagichlarining qo'shimcha taxminlarixususiyatlarning shartli mustaqilligi. Ushbusoddataxminga ko'ra,namunalarning sinf-shartli ehtimolliklariyoki (ehtimolliklari) x x ning barcha imkoniyatlarini baholash o'rniga to'g'ridan-to'g'ri o'quv ma'lumotlaridan taxmin qilinishi mumkinxx. Shunday qilib, birDD-o'lchovli xususiyati vektorxxberilgan, quyidagicha sinf shartli ehtimoli hisoblash mumkin:
P(x∣ωj)=P(x1∣ωj)⋅P(x2∣ωj)⋅...⋅P(xd∣ωj)=∏k=1dP(xk∣ωj)P(x∣ωj)=P(x1∣ωj)⋅P(x2∣ωj)⋅...⋅P(xd∣ωj)=∏k=1dP(xk∣ωj)
Bu yerda,P(x"ωj")p(x"ωj")shunchaki anglatadi: "bu alohida namunaxxu sinfga tegishli, deb berilgan rioya qilish qanday ehtimoliωjωjbor"."Xususiyat vektoridagi har bir xususiyat uchun" individual " likelikni maksimal ehtimollik bahosi orqali taxmin qilish mumkin, bu shunchaki kategorik ma'lumotlar holatida chastota:
P^(xx∣ij)=nXi,ωjNx ij(i=(1,...,d))P^(xi∣bijg'ituvchij)=nxi,bijg'ituvchijNbijg'ituvchij(i= (1,..., d))
Nxi,ωjNxi,jj: son xususiyatixIxisinfdan olingan namunalarda paydoωjωjbo'ladi.
N sinfdagi barcha xususiyatlarning umumiy soni: sinfdagi barcha xususiyatlarning umumiy soni.ωjNωj: Total count of all features in class ωjωj.
Ushbu kontseptsiyani misol bilan ko'rsatish uchun bizda 500 ta hujjat to'plami bor deb taxmin qilaylik, bu erda 100 ta hujjatspam-xabarlardir. Endi, biz u spam deb berilgan yangi xabar "Salom dunyo" uchun sinf-shartli ehtimolini hisoblash istayman. Bu erda naqsh ikkita xususiyatdan iborat: "salom" va "dunyo" va sinf-shartli ehtimollik "xabar berilgan" salom "ga duch kelish ehtimoli spam" — xabar berilgan "dunyo" ga duch kelish ehtimoli spam.”
P(x=[salom, dunyo]∣ω=spam)=P(salom∣spam)⋅P(jahon∣spam)P(x=[salom, dunyo]∣ω=spam)=P(salom∣spam)⋅P(jahon∣spam)
500 ta hujjatning o'quv ma'lumotlar to'plamidan foydalanib, biz ushbu ehtimolliklarni taxmin qilish uchun maksimal ehtimollik taxminidan foydalanishimiz mumkin: biz shunchaki barcha spam-xabarlarning korpusida so'zlar qanchalik tez-tez paydo bo'lishini hisoblab chiqamiz. Masalan,
P^(x=[salom, dunyo]s'ezdlar=spam)=20100 s'ezdlar 2100=0.004p^(x=[salom, dunyo]∣s'ezdlar=spam)=20100s'ezdlar2100=0.004 s'ezdlar
Biroq,naiveshartli mustaqillikning sodda taxminiga kelsak, biz bu erda muammoni sezamiz:soddataxmin shundaki, ma'lum bir so'z bir xil hujjatdagi boshqa so'zlarga duch kelish imkoniyatiga ta'sir qilmaydi. Misol uchun, bir matn hujjatda ikki so'z "eman" va "yog '" berilgan, sezgi bu taxmin aniq buzilgan deb aytilgan: bir hujjat so'z "eman" o'z ichiga olgan bo'lsa, u ham so'z "yog '" (yoki "allergiya") o'z ichiga ehtimoli ko'proq bo'ladi. Amalda, shartli mustaqillik taxmin, albatta, tez-tez buzilgan, lekin sodda Bayes tasniflagichlar o'sha hollarda yaxshi hali amalga ma'lum [6].
Oldingi Ehtimolliklar
Frequentistning yondashuvidan farqli o'laroq,prior probability (or just prioroldingi e'tiqod yoki apriori bilim sifatida talqin qilinishi mumkin bo'lgan qo'shimcha oldingi ehtimollik (yoki oldindan) kiritiladiprior belief or a priori.
posterior ehtimoli = shartli ehtimoli oldindan ehtimollikevidenceposterior ehtimoli = shartli ehtimoli⋅oldin ehtimollikevidence
Kontekstida naqshlarni tasniflash, oldingi ehtimolliklar ham deyiladisinfpriorlari, "ma'lum bir sinfga duch kelishning umumiy ehtimoli" ni tavsiflovchi."Spam tasnifi bo'yicha priorlar quyidagicha shakllantirilishi mumkin
P(spam)="har qanday yangi xabarning spam xabar bo'lish ehtimoli"P(spam) = "har qanday yangi xabarning spam xabar bo'lish ehtimoli"va
P(son)=1-p(spam).P (son)=1-p (spam).
Agar priorlar bir xil taqsimotga rioya qilsalar, orqa ehtimolliklar butunlay sinf-shartli ehtimolliklar va dalillar muddati bilan aniqlanadi. Va dalil atamasi doimiy bo'lganligi sababli, qaror qoidasi butunlay sinf-shartli ehtimolliklarga bog'liq bo'ladi (tez-tez uchraydigan yondashuv va maksimal ehtimollik taxminiga o'xshash).
Oxir-oqibat,aprioribilimlarni olish mumkin, masalan, domen mutaxassisi bilan maslahatlashish yoki o'quv ma'lumotlaridan taxmin qilish orqali (o'quv ma'lumotlarii.i.ddeb taxmin qilish.va butun aholining vakillik namunasi. Maksimal ehtimollikni taxmin qilish yondashuvi quyidagicha shakllantirilishi mumkin
P^(bijg'ituvchij)=nbijg'ituvchiJncP^(ωbijg'ituvchi J^(bijg'ituvchi j) = nbijg'ituvchijnj
NωjNωj: Hisoblash namunalar dan sinfωjωj.
NCbosimining: barcha namunalari soni.
Vaspam tasnifi kontekstida:
P^(spam)=# o'quv ma'lumotlaridagi spam xabarlarning # o'quv ma'lumotlaridagi barcha xabarlarning dataP^(spam)=# o'quv ma'lumotlaridagi spam xabarlarning # o'quv ma'lumotlaridagi barcha xabarlarning
3-rasmda oldingi ehtimolliklarning qaror qoidasiga ta'siri ko'rsatilgan. 1 o'lchovli naqsh berilganxx(doimiy atribut, quyidagicha chizilgan "x" belgilar) quyidagicha a normal taqsimot va ikkita sinfdan biriga tegishli (ko'kvayashil). Birinchi sinfdan olingan naqshlar (ω1=blue=ko'k1=blue)x=41=ko'k) o'rtacha x=4 x=4 va standart og'ish bilan normal taqsimotdanσ=1σ=1olingan. Ikkinchi sinfning ehtimollik taqsimoti (2=yashil; 2=yashil;2=yashil;) x=10 da markazlashtirilib, xuddi shunday standart og'ish;=1σ1; 1; 1; x=1;da markazlashtiriladi. Qo'ng'iroq egri chiziqlari ikki xil normal taqsimotdan olingan namunalarning ehtimollik zichligini bildiradi. Faqat sinf shartli ehtimolliklarini hisobga olgan holda, bu holda maksimal ehtimollik bahosi quyidagicha bo'ladi
P(x=4∣ω1)≈0.4 vaP(x=10∣ω1)<0.001P(x=4∣ω2)<0.001 vaP(x=10∣ω2)≈0.4.P(x=4∣ω1)≈0.4 va P(x=10∣ω1)<0.001 P(x=4∣ω2)<0.001 va P(x=10∣ω2)≈0.4.
Endi, berilgan yagona priors, debP(va hokazo1)=P(va hokazo2)=0.5P(va hokazo1)=P(va hokazo2)=0.5, qaror qoida o'sha sinf-shartli ehtimollar butunlay qaram bo'ladi, qaror qoida ikki o'rtasida to'g'ridan-to'g'ri tushib, shunday qilib, taqsimotlar
P(x∣xk1)=p(x∣XK2).P(x∣ω1)=P(x∣ω2).
Ammo, agar oldingi ehtimollikP(ω1)>0,5P (ω1) > 0,5p bo'lsa,ω11-rasmda ko'rsatilganidek, 1-sinfning qaror mintaqasi1kengayar edi. Spam tasnifi kontekstida, bu faqat spam yoki son xabarlar paydo teng ehtimoli bor so'zlarni o'z ichiga olgan yangi xabar duch sifatida talqin qilinishi mumkinspam or ham. Bunday holda, qaror butunlayoldingi bilimlarga bog'liqbo'ladi, masalan, biz tasodifiy xabar 9 ta holatdan 10 tasida spam emas deb taxmin qilishimiz mumkinspamva shuning uchun yangi xabarnijambon deb tasniflashimizmumkin.
3-rasm.Oldingi ehtimolliklarning qaror mintaqalariga ta'siri. Rasmda ikki xil sinfdan (ko'k va yashil xochlar) 1 o'lchovli tasodifiy tanlanma ko'rsatilgan. Moviy va yashil sinfning ma'lumot nuqtalari odatda standart og'ish 1 bilan taqsimlanadi va qo'ng'iroq egri chiziqlari sinf-shartli ehtimolliklarni bildiradi. Agar sinf priorlari teng bo'lsa, sodda Bayes tasniflagichining qaror chegarasi ikkala taqsimot (kulrang bar) o'rtasida markazga joylashtiriladi. Ko'k sinfning oldingi ehtimoliyatining ortishi (ko'k1nuqtali1satr) qaror chegarasini (ko'k nuqtali satr) boshqa sinf tomon va aksincha ko'chirish orqali qaror mintaqasining R1 kengayishiga olib keladi.
Dalillar
After defining the Sinf-shartli ehtimollikvaoldingi ehtimollikni aniqlagandan so'ng, orqa ehtimollikni hisoblash uchun faqat bitta atama etishmayaptiposterior probability, budalil.
posterior ehtimoli = shartli ehtimoli oldindan ehtimollikevidenceposterior ehtimoli = shartli ehtimoli⋅oldin ehtimollikevidence
DalillarP(x)P (x)sinf yorlig'i mustaqil muayyan naqsh x x duch ehtimoli sifatida tushunish mumkinx. Orqa ehtimollikning rasmiy ta'rifini hisobga olgan holda
P(ωj∣xi)=P(x, men∣ωj)⋅P(ωj)P(xi),P(ωj∣xi)=P(xi∣ωj)⋅P(ωj)P(xi),
dalillarni quyidagicha hisoblash mumkin (ω"CJ"ωjC"komplement" degan ma'noni anglatadi va asosannot"sinf emas" deb tarjima qilinadijnot class ωj.” ):
P(xi)=P(x, men∣ωj)⋅P(ωj)+P(x, men∣ωCj)⋅P(ωCj)P(xi)=P(xi∣ωj)⋅P(ωj)+P(xi∣ωjC)⋅P(ωjC)
Bo'lsa-da, dalillar muddat talab qilinadi, aniq hisoblash orqa probabilities, u bo'lishi mumkin o'chirildi danqaror qoida"Tasnifi namunaxixisifatidaω1ω1bo'lsa,P(ω1∣xi)>P(ω2∣xi)P(ω1∣xi)>P(ω2∣xi)boshqa tasnifi namuna sifatidaω2ω2," chunki u faqat bir miqyosi omil:
P(xi∣ω1)⋅P(ω1)P(xi)>P(xi∣ω2)⋅P(ω2)P(xi)P(xi∣ω1)⋅P(ω1)P(xi)>P(xi∣ω2)⋅P(ω2)P(xi)
∝P(xi∣ω1)⋅P(ω1)>P(xi∣ω2)⋅P(ω2)∝P(xi∣ω1)⋅P(ω1)>P(xi∣ω2)⋅P(ω2)
Multinomial Sodda Bayes-O'yinchoq Misol
Sodda Bayes klassifikatorining asoslari tushunchalarini,posterior ehtimolliklarvaqaror qabul qilish qoidalarini yoritgandan so'ng, 4-rasmda ko'rsatilgan mashg'ulotlar to'plami asosida oddiy o'yinchoq namunasini ko'rib chiqamiz.
4-rasm.12 namunalari 2 turli sinflar bir oddiy o'yinchoq ma'lumotlarto'plami +, -+, -. Har bir namuna consists of2 xususiyatdan iborat: rang va geometrik shakl.
Ruxsat bering
ωjωjbo'lishi sinf teglar:ωj∈{+,−}ωj∈{+,−}
vaxixi2 o'lchovli xususiyat vektorlari bo'lsin:xi=[xi1xi2],xi11ko'zlar{ko'k,yashil,qizil,sariq},xi22ko'zlar{aylana,kvadrat}.xi = [xi1xi2],xi1ko'zlar{ko'k,yashil,qizil,sariq},xi2ko'zlar∈{doira,kvadrat}.
2ωj∈{+,−-sinfteglario'zgartirishdao'zgartirishdajoylashtirishdajoylashtirishdajoylashtirishdajoylashtirishdajoylashtirishdajoylashtirishdajoylashtirishdajoylashtirishdajoylashtirishdaamalgaoshiriladi.∈{+,−} and the feature vector for sample ii can be written as
xi=[xi1xi2]uchuni{1,2,...,n}, bilann=12vaxi11ko'zlar{ko'k, yashil,qizil, sariq},xi22ko'zlar{doira, kvadrat}xi=[xi1xi2]uchunko'zlar{1,2,...,n}, bilan n = 12vaxi1ko'zlar{ko'k, yashil, qizil, sariq}, xi2ko'zlar∈{doira, kvadrat}
Endi vazifa yangi namunani tasniflashdir-go'yo uning haqiqiy sinf yorlig'i "+"ekanligini bilmaymiz:
5-rasm. Sinfdan yangi namuna+++va xususiyatlariX=[ko'k, kvadrat]X = [ko'k, kvadrat]deb shakl 4 ta'lim ma'lumotlar yordamida tasniflanadi kerak.
Maksimal Ehtimollik Taxminlari
The Qaror qoidasi quyidagichabelgilanishi mumkin
Namunani +ifP deb tasniflang(x=+x=[ko'k, kvadrat])pdeb tasniflang (x=-x=[ko'k, kvadrat])boshqa namunani-deb tasniflang.Namunani +ifP deb tasniflang(x=+∣x=[ko'k, kvadrat]) p(x=-∣x=[ko'k, kvadrat])boshqa namunani-deb tasniflang.
Namunalari. i. d deb taxminqilingan holda,oldingi ehtimolliklarnimaksimal ehtimollik smetasi orqali olish mumkin (ya'ni har bir sinf yorlig'i o'quv ma'lumotlar to'plamida qanchalik tez-tez namoyish etilishining chastotalari):
P(+)=712=0.58P(-)=512=0.42P(+)=712=0.58 P ( - )=512=0.42
Under the naive"Rang" va "shakl" xususiyatlari o'zaro mustaqil degan sodda taxmin ostida,sinf-shartli ehtimolliklaralohida shartli ehtimollarning oddiy mahsuloti sifatida hisoblanishi mumkin.
Via maksimal ehtimollikni taxmin qilish, masalan,P(ko'k rangdunyo−)P(ko'krangdunyo−)- bu shunchaki sinfga tegishli bo'lgan o'quv ma'lumotlar to'plamidagi barcha namunalar orasida "ko'k" namunani kuzatish chastotasi−−.
P(x∣+)=P(ko'k∣+)⋅P(kvadrat∣+)=37⋅57=0.31P(x∣−)=P(ko'k∣−)⋅P(kvadrat∣−)=35⋅35=0.36P(x∣+)=P(ko'k∣+)⋅P(kvadrat∣+)=37⋅57=0.31 P(x∣−)=P(ko'k∣−)⋅P(kvadrat∣−)=35⋅35=0.36
Endiorqa ehtimolliklarnioddiygina sinfning mahsuloti sifatida hisoblash mumkin-shartli va oldingi ehtimolliklar:
P begin =(+∣x)=P(x∣+)⋅P > < /(+)=0.31⋅0.58=0.18P begin =(−∣x)=P(x∣−)⋅P > < /(−)=0.36⋅0.42=0.15P begin = (+∣x)=P(x∣+)⋅P(+)=0.31⋅0.58=0.18 P(−∣x)=P(x∣−)⋅P(−)=0.36⋅0.42=0.15
Tasnifi
Barchasini birlashtirib, yangi namunani qaror qabul qilish qoidasiga orqa ehtimolliklarni kiritish orqali tasniflash mumkin:
AgarP(+∣x)≥P(-∣x)tasnifi sifatida +,boshqa tasnifi sifatida −Agar P(+∣x)≥P(-∣x)tasnifi sifatida +,boshqa tasnifi sifatida −
Since 0.18 > 0.150.18 > 0.15 dan boshlabnamunani ++deb tasniflash mumkin++. Orqa ehtimollarni hisoblashni batafsil ko'rib chiqadigan bo'lsak, ushbu oddiy misol oldingi ehtimolliklarning qaror qoidasiga ta'sirini ko'rsatadi. Agar oldingi ehtimolliklar ikkala sinf uchun ham teng bo'lsa, yangi naqsh quyidagicha tasniflanadi--−o'rniga+++. Ushbu kuzatuv, shuningdek, vakillarni o'qitish ma'lumotlar to'plamlarining muhimligini ta'kidlaydi; amalda, avvalgi ehtimollarni aniqlash uchun odatda qo'shimcha ravishda domen mutaxassisi bilan maslahatlashish tavsiya etiladi.
Qo'shimcha Tekislash
Tasnif 5-rasmdagi namuna berilgan. Trickier case-bu 6-rasmda ko'rsatilgandek, o'quv ma'lumotlar to'plamida mavjud bo'lmagan rang atributi uchun "yangi" qiymatga ega bo'lgan namunayellow.
6-rasm.Sinfdan yangi namuna+++va xususiyatlariX=[sariq, kvadrat]X = [sariq, kvadrat]deb shakl 4 ta'lim ma'lumotlarni yordamida tasniflanadi kerak
Agaryellowbizning o'quv ma'lumotlarimizda sariq rang ko'rinmasa, sinf-shartli ehtimollik 0 ga teng bo'ladi va natijada orqa ehtimollik ham 0 ga teng bo'ladi, chunki orqa ehtimollik oldingi va sinf-shartli ehtimolliklarning hosilasidir.
P(ω1∣x)=0⋅0.42=0P(ω2∣x)=0⋅0.58=0P(ω1∣x)=0⋅0.42=0P(ω2∣x)=0⋅0.58=0
Nol ehtimolliklar muammosini oldini olishzerouchunmultinomial Bayes modeliga qo'shimcha tekislash atamasi qo'shilishi mumkin. Additiv tekislashning eng ko'p tarqalgan variantlari-Lidstone smoothing (α<1αLidstoun tekislanishi (uniforma<1 uniforma<1) vaLaplas tekislanishi (uniforma=α=1α1 uniforma=1uniforma) deb ataladi.
P^(xx∣ij)=nXi,ωj+αNj+i j++iD(i=(1,...,d))P^(xij)=Nxi,ωj+Nωjα) d(i=(1,..., d))
qani
Nxi,ωjNxi,jj: son xususiyatixIxisinfdan olingan namunalarda paydoωjωjbo'ladi.
N sinfdagi barcha xususiyatlarning umumiy soni: sinfdagi barcha xususiyatlarning umumiy soni.ωjNωj: Total count of all features in class ωjωj.
αα: Parametr uchun qo'shimcha tekislash.
dd: xususiyat vektorining o'lchamliligix=[x1,...,xd]x=[x1,...,xd].
Sodda Bayes va matn tasnifi
Ushbu bo'limda sodda Bayes modelini matnni tasniflash vazifalariga qo'llash uchun zarur bo'lgan ba'zi asosiy tushunchalar va protseduralar kiritiladi. Garchi misollar asosan ikki sinfli muammoga tegishli bo'lsa-da — matnli xabarlarnispamyokijambondeb tasniflash - bir xil yondashuvlar hujjatlarni turli mavzularga ajratish kabi ko'p sinfli muammolarga nisbatan qo'llaniladi (masalan, "kompyuter fanlari", "Biologiya", "statistika", "Iqtisodiyot", "Siyosat " va hokazo.).
So'zlar modeli Bag
Naqshlarni tasniflashning eng muhim kichik vazifalaridan biribu xususiyatlarni ajratibolish vatanlashdir; yaxshi xususiyatlarning uchta asosiy mezonlari quyida keltirilgan:
1>
Do'stlaringiz bilan baham: |