Naive Bayes'dagi hujjat ko'rinishi atamalar ketma-ketligi yoki ikkilik vektordir . Bunda har bir hujjatni vektor sifatida bitta haqiqiy qiymatli komponentga ega, odatda har bir atama uchun tf-idf og'irligini ko'rsatadi. Tasniflash uchun vektor fazo modelidan foydalanishning asosiy gipotezasi bu qo'shnilik gipotezasidir.
Xuddi shu sinfdagi hujjatlar qo'shni hududni tashkil qiladi va turli sinflar mintaqalari bir-biriga mos kelmaydi. Hujjatlar toʻplamining qoʻshni hududda xaritada koʻrsatilishi yoki yoʻqligi, biz hujjat koʻrsatish uchun qilgan muayyan tanlovimizga bogʻliq: tortish turi, toʻxtash roʻyxati va h.k. Hujjatni koʻrsatish muhimligini bilish uchun guruh tomonidan yozilgan ikkita sinfni koʻrib chiqamiz. I shaxs olmoshining tez-tez kelishi bir shaxs sinfiga dalildir. Ammo agar biz to'xtash ro'yxatidan foydalansak, bu ma'lumot hujjat ko'rinishidan o'chiriladi. Agar tanlangan hujjat ko'rinishi betartib bo'lsa, tutashuv gipotezasi bajarilmaydi va vektor fazosini muvaffaqiyatli tasniflash imkoni bo’lmay qoladi.
Qo'shnilik gipotezasi
Misol uchun, hujjatda 5 marta takrorlangan atama bir martali atamaga qaraganda yuqoriroq vaznga ega bo'lishi kerak, ammo 5 marta kattaroq og'irlik atamaga juda ko'p urg'u beriladi. Vektor fazosini tasniflashda vaznsiz va normallashtirilmagan hisoblashlardan foydalanmaslik kerak. Rocchio va kNN. Rokkio tasnifi vektor bo'shlig'ini markazlashtirilgan hududlarga ajratadi. Prototiplar yani har bir sinf uchun bittadan, sinfdagi barcha hujjatlarning massa markazi sifatida hisoblanadi. Rokkio tasnifi oddiy va samarali, ammo agar sinflar taxminan o'xshash radiusli sharlar bo'lmasa bu tasnif samara bermaydi.
Chiziqli va chiziqli bo'lmagan tasniflagichlar
Ushbu bo'limda biz Naive Bayes va Rocchio o'rganishning ikkita usuli chiziqli klassifikatorlarning namunalari, ehtimol matn tasniflagichlarining eng muhim guruhi ekanligini va ularni chiziqli bo'lmagan tasniflagichlar bilan korib chiqish mumkin. Matnlarni soddalashtirish uchun biz ushbu bo'limda faqat ikki sinfli tasniflagichlarni ko'rib chiqamiz va chiziqli klassifikator ikki sinfli tasniflagich sifatida xususiyatlarning chiziqli birikmasini solishtirish orqalihal qilamiz.
Ikki chiziqli bo'linadigan sinflarni ajratuvchi cheksiz ko'p giperplanlar mavjud.
Chiziqli tasniflash algoritmi.
Ikkitadan ortiq sinflar bilan tasniflash
Ikki sinfli chiziqli tasniflagichlarni sinflarga kengaytirishimiz mumkin . Foydalanish usuli sinflar bir-birini istisno qiladimi yoki yo'qligiga bog'liq. Har qanday tasniflash vazifasini chiziqli klassifikatorlar yordamida hal qilish juda oddiy:
Har bir sinf uchun klassifikatorni tuzish, bunda o'quv majmuasi sinfdagi hujjatlar to'plamidan (ijobiy belgilar) va uning to'ldiruvchisidan (salbiy belgilar) iborat.
Sinov hujjatini hisobga olgan holda, har bir tasniflagichni alohida qo'llash. Bir klassifikatorning qarori boshqa tasniflagichning qaroriga ta'sir qilmaydi(hujjat ustidagi amallar).
Ikkitadan ortiq sinflar bilan tasniflash
Bir-birini istisno qilmaydigan sinflar uchun tasniflash har qanday , multilabel yoki multivalue tasnifi deb ataladi. Bunday holda, hujjat bir vaqtning o'zida bir nechta sinflarga tegishli bo'lishi mumkin yoki bitta sinfga tegishli bo'lishi mumkin yoki hech qanday sinfga kirmaydi. Bir sinf bo'yicha qaror boshqalari uchun barcha variantlarni ochiq qoldiradi. Ba'zida sinflar bir-biridan mustaqil deb aytiladi, ammo bu noto'g'ri, chunki sinflar statistik jihatdan mustaqil emas.
Xulosa
Hujjatlarni tasniflashda uning baholanishi , og’irligini organgan holda klassifikatsiyaga ajratish kerakligi muhim.
Ma’lumotlarni har bir elementini indexlash qidiruv jarayonini tezlashttirish , uning ustida amallar bajarish tezlashishiga sabab bol’ladi.