O’zbekiston respublikasi axborot texnologiyalari va kommunikatsiyalarini rivojlantirish vazirligi muhammad al-xorazmiy nomidagi toshkent axborot texnologiyalari universiteti samarqand filiali



Download 154,26 Kb.
bet7/13
Sana01.02.2022
Hajmi154,26 Kb.
#424710
1   2   3   4   5   6   7   8   9   10   ...   13
Bog'liq
1-mustaqil ish

Table 2. Samples of the stop words in the texts written in Uzbek.







So'zlarni to'xtating







men

sen

u

biz

siz

ular

bilan

uchun

ham

bu

ushbu

bo‘lib

...

...

...

...

...

...

hamda

va

lekin

ammo

biroq

yoki

ekan

lozim

nima

qanday

necha

haqida

3.3. Xususiyatlarni tanlash
Ushbu bosqichda yangilik maqolasining har bir matni xususiyat vektoriga aylantiriladi va tayyorlangan ma'lumotlar to'plamidan foydalanib, yangi xususiyatlar vektori olinadi. Ma'lumotlar to'plamidan tegishli xususiyatlarni tanlash uchun biz n-gram modeli bilan birga TF-IDF vektorlashtirish algoritmidan foydalandik. Xususiyat vektorlarini olishda unigram, bigram, trigram va to'rt gramm TF-IDF vektorizatsiya algoritmi bilan n-gramm modelining so'z darajasi va belgilar darajasi uchun ishlatilgan. Xususiyat vektorlaridan alohida foydalanish orqali biz matnni tasniflash vazifasini bajardik.
N-gramma modellashtirish tabiiy tillarni qayta ishlash va modellashtirish, ularning asosiy xususiyatlarini aniqlash va tahlil qilish uchun keng qo'llaniladigan usul sifatida qaraladi. n-gramm - n uzunlikdagi elementlarning o'zaro qo'shni ketma-ketligi. Ushbu elementlar matn tasnifida tez-tez ishlatiladigan so'zlar, baytlar yoki n-gramm modelining belgilar ketma-ketligi bo'lishi mumkin - bular so'z yoki belgilarga asoslangan modellardir. Yuqorida ta'kidlab o'tilganidek, ushbu ikkita model va TF-IDF vektorlashtirish algoritmidan foydalanib, biz xususiyat vektorlarini oldik va ko'rib chiqilayotgan muammo uchun mos vektorlarni ajratib oldik.
So'zlar to'plamidagi yoki hujjat matnidagi so'zning vaznli TF-IDF qiymati hujjatdagi so'z ahamiyatini ko'rsatishga qaratilgan statistik o'lchamdir. TF-IDF vazn o'lchami Text Mining va NLP-da keng qo'llaniladi. Uning qiymati odatda quyidagicha hisoblanadi. Faraz qilaylik, bizda N ta hujjat to‘plami bor, fij j hujjatidagi i so‘zining chastotasi. Agar n j hujjatidagi barcha so'zlar soni bo'lsa, u holda so'z chastotasi TFij = fij/n formulasi bo'yicha hisoblanadi. Agar N hujjatlar to'plamidagi i so'zi ni hujjatda paydo bo'lsa, u holda i so'zi uchun IDF (teskari hujjat chastotasi) IDFi = log10 (N/ni) formulasi bilan aniqlanadi. TF −IDFij = TFij×IDFi formulasi j hujjatidagi i so‘zi uchun ham qo‘llaniladi. Ma'lumotlar to'plamining har bir qatorida oltita holat uchun mos xususiyat vektori tuzilgan va har bir holat uchun tajribalar o'tkaziladi. Ushbu holatlar va eksperimental natijalar natijalar bo'limida batafsil bayon etilgan.
3.4. Model
Onlayn yangiliklar maqolalarining ko'p sinfli matn tasnifini amalga oshirishda biz 6 xil mashinani o'rganish algoritmlarini qo'lladik: Yordam vektor mashinalari, Qaror daraxti tasniflagichi, Tasodifiy o'rmon, Logistik regressiya, Multinomial Na¨ive Bayes. SVM uchun bir nechta yadro funktsiyalari, xususan, chiziqli qo'llab-quvvatlash vektor tasnifi (chiziqli SVC) va radial asosli funktsiyali qo'llab-quvvatlash vektor mashinasi (RBF SVM) ishlatilgan. Ushbu tasniflagichlarni amalga oshirish uchun Python til muhiti va dasturlash tizimida bajarilgan Scikitlearn mashina o'rganish kutubxonasidan [20] foydalanilgan. Ushbu muammoni hal qilish uchun biz ishlab chiqqan model quyidagi funktsional diagrammada keltirilgan (2-rasm).
2-rasm. O‘zbek xabarlarini ko‘p sinfli matnli tasniflash uchun taklif etilayotgan modelning umumiy tuzilishi.

Taklif etilayotgan modelning batafsil algoritmik tavsifi, funksional diagrammasi 1-rasmda keltirilgan.





Download 154,26 Kb.

Do'stlaringiz bilan baham:
1   2   3   4   5   6   7   8   9   10   ...   13




Ma'lumotlar bazasi mualliflik huquqi bilan himoyalangan ©hozir.org 2024
ma'muriyatiga murojaat qiling

kiriting | ro'yxatdan o'tish
    Bosh sahifa
юртда тантана
Боғда битган
Бугун юртда
Эшитганлар жилманглар
Эшитмадим деманглар
битган бодомлар
Yangiariq tumani
qitish marakazi
Raqamli texnologiyalar
ilishida muhokamadan
tasdiqqa tavsiya
tavsiya etilgan
iqtisodiyot kafedrasi
steiermarkischen landesregierung
asarlaringizni yuboring
o'zingizning asarlaringizni
Iltimos faqat
faqat o'zingizning
steierm rkischen
landesregierung fachabteilung
rkischen landesregierung
hamshira loyihasi
loyihasi mavsum
faolyatining oqibatlari
asosiy adabiyotlar
fakulteti ahborot
ahborot havfsizligi
havfsizligi kafedrasi
fanidan bo’yicha
fakulteti iqtisodiyot
boshqaruv fakulteti
chiqarishda boshqaruv
ishlab chiqarishda
iqtisodiyot fakultet
multiservis tarmoqlari
fanidan asosiy
Uzbek fanidan
mavzulari potok
asosidagi multiservis
'aliyyil a'ziym
billahil 'aliyyil
illaa billahil
quvvata illaa
falah' deganida
Kompyuter savodxonligi
bo’yicha mustaqil
'alal falah'
Hayya 'alal
'alas soloh
Hayya 'alas
mavsum boyicha


yuklab olish