Table 2. Samples of the stop words in the texts written in Uzbek.
|
|
So'zlarni to'xtating
|
|
|
men
|
sen
|
u
|
biz
|
siz
|
ular
|
bilan
|
uchun
|
ham
|
bu
|
ushbu
|
bo‘lib
|
...
|
...
|
...
|
...
|
...
|
...
|
hamda
|
va
|
lekin
|
ammo
|
biroq
|
yoki
|
ekan
|
lozim
|
nima
|
qanday
|
necha
|
haqida
|
3.3. Xususiyatlarni tanlash
Ushbu bosqichda yangilik maqolasining har bir matni xususiyat vektoriga aylantiriladi va tayyorlangan ma'lumotlar to'plamidan foydalanib, yangi xususiyatlar vektori olinadi. Ma'lumotlar to'plamidan tegishli xususiyatlarni tanlash uchun biz n-gram modeli bilan birga TF-IDF vektorlashtirish algoritmidan foydalandik. Xususiyat vektorlarini olishda unigram, bigram, trigram va to'rt gramm TF-IDF vektorizatsiya algoritmi bilan n-gramm modelining so'z darajasi va belgilar darajasi uchun ishlatilgan. Xususiyat vektorlaridan alohida foydalanish orqali biz matnni tasniflash vazifasini bajardik.
N-gramma modellashtirish tabiiy tillarni qayta ishlash va modellashtirish, ularning asosiy xususiyatlarini aniqlash va tahlil qilish uchun keng qo'llaniladigan usul sifatida qaraladi. n-gramm - n uzunlikdagi elementlarning o'zaro qo'shni ketma-ketligi. Ushbu elementlar matn tasnifida tez-tez ishlatiladigan so'zlar, baytlar yoki n-gramm modelining belgilar ketma-ketligi bo'lishi mumkin - bular so'z yoki belgilarga asoslangan modellardir. Yuqorida ta'kidlab o'tilganidek, ushbu ikkita model va TF-IDF vektorlashtirish algoritmidan foydalanib, biz xususiyat vektorlarini oldik va ko'rib chiqilayotgan muammo uchun mos vektorlarni ajratib oldik.
So'zlar to'plamidagi yoki hujjat matnidagi so'zning vaznli TF-IDF qiymati hujjatdagi so'z ahamiyatini ko'rsatishga qaratilgan statistik o'lchamdir. TF-IDF vazn o'lchami Text Mining va NLP-da keng qo'llaniladi. Uning qiymati odatda quyidagicha hisoblanadi. Faraz qilaylik, bizda N ta hujjat to‘plami bor, fij j hujjatidagi i so‘zining chastotasi. Agar n j hujjatidagi barcha so'zlar soni bo'lsa, u holda so'z chastotasi TFij = fij/n formulasi bo'yicha hisoblanadi. Agar N hujjatlar to'plamidagi i so'zi ni hujjatda paydo bo'lsa, u holda i so'zi uchun IDF (teskari hujjat chastotasi) IDFi = log10 (N/ni) formulasi bilan aniqlanadi. TF −IDFij = TFij×IDFi formulasi j hujjatidagi i so‘zi uchun ham qo‘llaniladi. Ma'lumotlar to'plamining har bir qatorida oltita holat uchun mos xususiyat vektori tuzilgan va har bir holat uchun tajribalar o'tkaziladi. Ushbu holatlar va eksperimental natijalar natijalar bo'limida batafsil bayon etilgan.
3.4. Model
Onlayn yangiliklar maqolalarining ko'p sinfli matn tasnifini amalga oshirishda biz 6 xil mashinani o'rganish algoritmlarini qo'lladik: Yordam vektor mashinalari, Qaror daraxti tasniflagichi, Tasodifiy o'rmon, Logistik regressiya, Multinomial Na¨ive Bayes. SVM uchun bir nechta yadro funktsiyalari, xususan, chiziqli qo'llab-quvvatlash vektor tasnifi (chiziqli SVC) va radial asosli funktsiyali qo'llab-quvvatlash vektor mashinasi (RBF SVM) ishlatilgan. Ushbu tasniflagichlarni amalga oshirish uchun Python til muhiti va dasturlash tizimida bajarilgan Scikitlearn mashina o'rganish kutubxonasidan [20] foydalanilgan. Ushbu muammoni hal qilish uchun biz ishlab chiqqan model quyidagi funktsional diagrammada keltirilgan (2-rasm).
2-rasm. O‘zbek xabarlarini ko‘p sinfli matnli tasniflash uchun taklif etilayotgan modelning umumiy tuzilishi.
Taklif etilayotgan modelning batafsil algoritmik tavsifi, funksional diagrammasi 1-rasmda keltirilgan.
Do'stlaringiz bilan baham: |