3-jadval.Stop so'z olib tashlash misol.
Stemming va Lemmatizatsiya
Stemmingso'zni ildiz shakliga aylantirish jarayonini tavsiflaydi. Original kelib chiqadigan algoritm mening Martin f ishlab chiqildi.Porter yilda 1979 va ShuningPorter stemmer sifatida tanilgan[8].
4-jadval.Porter kelib chiqadigan misol.
Stemming yuqoridagi misolda "thu" kabi haqiqiy bo'lmagan so'zlarni yaratishi mumkinthu. Lemmatizatsiyadan farqli o'laroq,lemmatizationlemmalar deb ataladigan so'zlarning kanonik (grammatik jihatdan to'g'ri) shakllarini olishga qaratilganlemmas. Lemmatizatsiya stemmalashdan ko'ra hisoblash qiyinroq va qimmatroq bo'lib, amalda stemmalash ham, lemmatizatsiya ham matn tasnifini bajarishga kam ta'sir ko'rsatadi [9].
Table4-jadval.Lemmatizatsiyaga misol of Lemmatization.
(Stemming va lemmatizatsiya misollari Python NLTK kutubxonasi yordamida yaratilgan,http://www.nltk.org.)
N-Gramm
In the N-grammodelida Tokennin ta element ketma-ketligi sifatida aniqlash mumkin. Eng oddiy holat-unigrambu har bir so'z aniq bitta so'z, harf yoki belgidan iborat bo'lgan unigram (1 gramm). Oldingi barcha misollar hozirgacha unigramlar edi. Optimal sonni tanlashn tilga va ma'lum dasturga bog'liq. Masalan, Andelka Zecevic topilgan uning o'rganish deb n-gramm bilan3≤n≤73≤n≤7edi, eng yaxshi tanlov aniqlash uchun yozuvchilik hamda serbiya matnli hujjatlar [10]. Bir xil ishda,nhajmin-gramm 44≤n≤811va Kanarisva boshqalarnhajmi n-gramm e-mail anti-spam filtrlash yaxshi chiqishlari hosil deb hisobot 3 va 4 hajmi n-gramm 4 va n-gramm ingliz matn kitoblar mualliflik aniqlash eng yuqori aniqligini berdi. xabarlar [12].
Spamni tasniflash uchun qaror qoidasi
Spam tasnifi kontekstida sodda Bayes tasniflagichining orqa ehtimolliklarga asoslangan qaror qoidasi quyidagicha ifodalanishi mumkin
agarP(ω=spam∣x)≥P(ω=son∣x) tasnifi kabi spam, boshqa tasnifi sifatida son. agar P(ω=spam∣x)≥P(ω=son∣x) tasnifi kabi spam, boshqa tasnifi sifatida son.
As described in Section Orqa ehtimolliklar bo'limida tasvirlanganidek,orqa ehtimollik sinf-shartli ehtimollik va oldingi ehtimollik mahsulotidir; ikkala sinf uchun ham doimiy bo'lgani uchun denominatordagi dalil atamasi tushirilishi mumkin.
P(ω=spam∣x)=P(x∣ω=spam)⋅P(spam)P(ω=son∣x)=P(x∣ω=son)⋅P(son)P(ω=spam∣x)=P(x∣ω=spam)⋅P(spam)P(ω=son∣x)=P(x∣ω=son)⋅P(son)
Oldingi ehtimolliklarni o'quv ma'lumotlar to'plamidagi spam va jambon xabarlarining chastotalari asosida maksimal ehtimollik smetasi orqali olish mumkin:
P^(s'emka=spam)=# ning spam msg.# barcha msg ning.P^(Xem=Xem) Xem msg ning=#.# barcha msg ning.P^(s'emka=spam)=# ning spam msg.# barcha msg ning.P^(Xem=Xem) Xem msg ning=#.# barcha msg ning.
Har bir hujjatdagi so'zlar shartli ravishda mustaqil deb faraz qilsak (soddataxmin bo'yicha), sinf-shartli ehtimollarni hisoblash uchun ikki xil modeldan foydalanish mumkin:ko'p o'zgaruvchan Bernullimodeli vaMultinomialmodel.
Multi-variate Bernoulli sodda Bayes
The Ko'p o'zgaruvchan Bernullimodeli ikkilik ma'lumotlarga asoslangan: hujjatning xususiyat vektoridagi har bir belgi 1 yoki 0 qiymati bilan bog'liq. Xususiyati vektormm dimensions where mm m butun so'z so'zlar soni m m yo'nalishlarini ega(bo'limdaso'zlar modeli Bag; qiymati 1 so'z alohida hujjatda uchraydi, degan ma'noni anglatadi, va 0 so'z bu hujjatda sodir bo'lmaydi, degan ma'noni anglatadi. Bernulli sinovlari quyidagicha yozilishi mumkin
P(x∣ωj)=∏i=1mP(x, men∣ωj)b⋅(1−P(x, men∣ωj))(1−b)(b∈0,1).P(x∣ωj)=∏i=1mP(xi∣ωj)b⋅(1−P(xi∣ωj))(1−b)(b∈0,1).
Ma'lumP^(xi∣ωj)P^(xi∣ωbir so'z (yoki belgi) x i XI sinfda uchraydiganini p^(x i j)p^(xi j)maksimal-ehtimolligi tahmin bo'lsinxixi occurs in class ωjωj.
P^(xx∣ij)=dfXI,y+1DFy+2p^(xij) = dfxi, y + 1dfy+2
qani
DFxi,ydfxi, y is the number of documents in the training dataset that contain the feature -xixi xususiyatini o'z ichigaolgan va sinfga mansubbo'lgan o'quv datasetidagixujjatlarsonij.
DFydfy-o'quv datasetidagi sinfga tegishlibo'lgan xujjatlar sonijvaj.
+1 va + 2-Laplasni tekislash parametrlari(qism qo'shimchasini tekislash).
Multinomial Sodda Bayes
Muddat Chastotasi
Ikkilik qiymatlarni emas, balki matnli hujjatlarni tavsiflash uchun muqobil yondashuvbu atama chastota (tf(t, d)). Atama chastota odatda berilgan atamaning soni sifatida aniqlanadit(ya'ni so'z yoki belgi) hujjatda paydobo'ladi d(bu yondashuv ba'zanxom chastota deb ham ataladi). Amalda, chastota atamasi ko'pincha xom muddatli chastotani hujjat uzunligiga bo'lish orqali normallashtiriladi.
normalangan muddatli chastota=tf(t,d)nDnormalangan muddatli chastota=tf(t, d)nd
qani
tf(t,d)tf(t,d): xom muddatli chastota (thujjatD D muddatli t t sonidd).
nDnd: hujjatD D atamalar umumiy sonid.
Keyinchalik chastotalar atamasi multinomial modeldagi sinf-shartli ehtimolliklarni baholash uchun o'quv ma'lumotlari asosida maksimal ehtimollik bahosini hisoblash uchun ishlatilishi mumkin:
P begin =^(x, men∣ωj)=∑tf(xi,d∈ωj)+α∑Nd∈ωj+α⋅VP^(xi∣ωj)=∑tf(xi,d∈ωj)+α∑Chi∈ωj+α⋅V
qani
xixi: muayyan namunadagi xususiyati vektorxx bir so'z.
∑tf(xi,d∈ωj)∑tf(xi,d∈ωj): so'm Bo'lgan xom muddatli chastotalar wordxixibarcha hujjatlar tayyorlash namunasi, deb tegishli sinfωjωj.
∑Nd∈ωj∑Chi∈ωj: summasi barcha muddatli chastotalar o'quv majmui uchun sinfωjωj.
αα: Bir hissa tekislash parametr (α=1α=1uchun Laplace tekislash).
VV: so'z boyligining hajmi (o'quv to'plamidagi turli so'zlar soni).
Matnga duch kelishning sinf-shartli ehtimolixxalohida so'zlarning o'xshashligi mahsuloti sifatida hisoblanishi mumkin (shartli mustaqillikningsoddataxminiga ko'ra).
P(x∣ωj)=P(x1∣ωj)⋅P(x2∣ωj)⋅...⋅P(xn∣ωj)=∏i=1mP(x, men∣ωj)P(x∣ωj)=P(x1∣ωj)⋅P(x2∣ωj)⋅...⋅P(xn∣ωj)=∏i=1mP(xi∣ωj)
Muddatli chastota - teskari hujjat chastotasi (Tf-idf)
The Atama chastota-teskari hujjat chastotasi (Tf-idf)matnli hujjatlarni tavsiflash uchun yana bir alternativ. Buni vaznliatama chastotasi deb tushunish mumkin, bu ayniqsa foydalidir to'xtash so'zlari matn korpusidan olib tashlanmagan. Tf-idf yondashuvi so'zning ahamiyati uning barcha hujjatlarda qanchalik tez-tez sodir bo'lishiga teskari proportsional deb taxmin qiladi. Tf-idf ko'pincha hujjatlarni turli xil matn qazib olish vazifalarida dolzarbligi bo'yicha saralash uchun ishlatiladi, masalan, qidiruv tizimlari tomonidan sahifalarni reytingi, shuningdek, sodda Bayes orqali matn tasnifiga qo'llanilishi mumkin.
Tf-idf=tfn(t,d) ushbudanidf(tboshlab: T)Tf-idf=tfn(t, d)ushbudanidfboshlab: D) ushbudan boshlab: t)
Let Tfn(D,f)tfn(d,f)normallashtirilgan atama chastotasi bo'lsin vaidfidf, teskari hujjat chastotasi, uni quyidagicha hisoblash mumkin
idf(t)=log(ndnd(t)),idf(t)=log'(ndnd(t)),
qani
nDnd: hujjatlar umumiy soni.
nd(t)nd(t): t t atamasini o'z ichiga olgan hujjatlar sonitt.
Ko'p variantli Bernulli va Multinomial modelning chiqishlari
Empirik taqqoslashlar, agar so'z hajmi nisbatan katta bo'lsa, multinomial model ko'p o'zgaruvchili Bernulli modelidan ustun bo'lishga intilishini dalillaydi [13]. Biroq, mashinani o'rganish algoritmlarining ishlashi xususiyatlarning tegishli tanloviga juda bog'liq. Sodda Bayes tasniflagichlari va matnni tasniflashda ishlashning katta farqlari so'zlarni olib tashlash, to'xtatish va token uzunligini tanlash bilan bog'liq bo'lishi mumkin [14]. Amalda, matnni tasniflash uchun ko'p o'zgaruvchan Bernulli yoki multinomial model o'rtasida tanlov qiyosiy tadqiqotlar, shu jumladan xususiyatlarni chiqarish va tanlash bosqichlarining turli xil kombinatsiyalarini o'z ichiga olishi tavsiya etiladi.
Naif Bayes modelining variantlari
Hozircha biz kategorik ma'lumotlar uchun ikki xil modelni ko'rdik, ya'ni ko'p o'zgaruvchan Bernoulli (bo'limBernoulli Bayes) va multinomial (bo'limMultinomial Bayes) modellari-va sinf — shartli ehtimolliklarni baholash uchun ikki xil yondashuv. Bo'limda * uzluksiz o'zgaruvchilar, biz uchinchi modeli qisqacha qarash qiladi:Gaussian Naif Bayes.
Uzluksiz O'zgaruvchilar
Matnni tasniflash kategorik ma'lumotlarning odatiy holatidir, ammo doimiy ma'lumotlarda sodda Bayeslardan ham foydalanish mumkin.Iris gullari ma'lumotlari to'plami doimiy xususiyatlarga ega bo'lgan nazorat qilinadigan tasniflash vazifasi uchun oddiy misol bo'ladi: Iris ma'lumotlar to'plamida santimetr bilan o'lchangan barglar va sepallarning kengligi va uzunligi mavjud. Bayes tasnifidagi sodda ma'lumotlar bilan ishlashning strategiyalaridan biri bu xususiyatlarni diskretlashtirish va alohida toifalarni shakllantirish yoki sinf-shartli ehtimolliklarni hisoblash uchun Gauss yadrosidan foydalanish. Xususiyatlarning ehtimollik taqsimoti normal (Gauss) taqsimotiga amal qiladi degan taxmin ostida Gauss sodda Bayes modeli quyidagicha yozilishi mumkin
P(xik∣ω)=12πσ2ω−−−−√exp(−(xik−μω)22σ2ω),P(xik∣ω)=12πσω2exp(−(xik−μω)22σω2),
buyerdao'quvma'lumotlaridanbaholanishi kerak bo'lgan parametrlarnio'qituvchi (namunaviy o'rtacha)vao'qituvchiσ (standart og'ish). Bayesning shartli mustaqillik haqidagi sodda taxminiga ko'ra, sinf-shartli ehtimollik thanalohida ehtimolliklar mahsuloti sifatida hisoblanishi mumkin:
P(xi∣ω)=∏k=1dP(xik∣ω)P(xi∣ω)=∏k=1dP(xik∣ω)
Tayyor va dangasa o'rganish algoritmlari
Being an G'ayratli o'quvchisifatida Naif Bayes tasniflagichlari yangi misollarni tasniflashda nisbatan tezkor ekanligi ma'lum. Ishtiyoqmand o'quvchilar-bu ma'lumotlar mavjud bo'lishi bilanoq o'quv ma'lumotlar to'plamidan modelni o'rganadigan algoritmlarni o'rganishdir. Model o'rganilgandan so'ng, yangi bashorat qilish uchun o'quv ma'lumotlarini qayta baholash shart emas. Ishtiyoqmand o'quvchilar bo'lsa, hisoblash uchun eng qimmat qadam bu modelni yaratish bosqichidir, yangi misollarni tasniflash esa nisbatan tezdir.
Do'stlaringiz bilan baham: |