O’zbekiston respublikasi axborot texnologiyalari va kommunikatsiyalarini rivojlantirish vazirligi muhammad al-xorazmiy nomidagi toshkent axborot texnologiyalari universiteti samarqand filiali

Download 154,26 Kb.

bet	7/13
Sana	01.02.2022
Hajmi	154,26 Kb.
	#424710

1 2 3 4 5 6 7 8 9 10 ... 13

Bog'liq
1-mustaqil ish

Table 2. Samples of the stop words in the texts written in Uzbek.

		So'zlarni to'xtating
men	sen	u	biz	siz	ular
bilan	uchun	ham	bu	ushbu	bo‘lib
...	...	...	...	...	...
hamda	va	lekin	ammo	biroq	yoki
ekan	lozim	nima	qanday	necha	haqida

3.3. Xususiyatlarni tanlash
Ushbu bosqichda yangilik maqolasining har bir matni xususiyat vektoriga aylantiriladi va tayyorlangan ma'lumotlar to'plamidan foydalanib, yangi xususiyatlar vektori olinadi. Ma'lumotlar to'plamidan tegishli xususiyatlarni tanlash uchun biz n-gram modeli bilan birga TF-IDF vektorlashtirish algoritmidan foydalandik. Xususiyat vektorlarini olishda unigram, bigram, trigram va to'rt gramm TF-IDF vektorizatsiya algoritmi bilan n-gramm modelining so'z darajasi va belgilar darajasi uchun ishlatilgan. Xususiyat vektorlaridan alohida foydalanish orqali biz matnni tasniflash vazifasini bajardik.
N-gramma modellashtirish tabiiy tillarni qayta ishlash va modellashtirish, ularning asosiy xususiyatlarini aniqlash va tahlil qilish uchun keng qo'llaniladigan usul sifatida qaraladi. n-gramm - n uzunlikdagi elementlarning o'zaro qo'shni ketma-ketligi. Ushbu elementlar matn tasnifida tez-tez ishlatiladigan so'zlar, baytlar yoki n-gramm modelining belgilar ketma-ketligi bo'lishi mumkin - bular so'z yoki belgilarga asoslangan modellardir. Yuqorida ta'kidlab o'tilganidek, ushbu ikkita model va TF-IDF vektorlashtirish algoritmidan foydalanib, biz xususiyat vektorlarini oldik va ko'rib chiqilayotgan muammo uchun mos vektorlarni ajratib oldik.
So'zlar to'plamidagi yoki hujjat matnidagi so'zning vaznli TF-IDF qiymati hujjatdagi so'z ahamiyatini ko'rsatishga qaratilgan statistik o'lchamdir. TF-IDF vazn o'lchami Text Mining va NLP-da keng qo'llaniladi. Uning qiymati odatda quyidagicha hisoblanadi. Faraz qilaylik, bizda N ta hujjat to‘plami bor, fij j hujjatidagi i so‘zining chastotasi. Agar n j hujjatidagi barcha so'zlar soni bo'lsa, u holda so'z chastotasi TFij = fij/n formulasi bo'yicha hisoblanadi. Agar N hujjatlar to'plamidagi i so'zi ni hujjatda paydo bo'lsa, u holda i so'zi uchun IDF (teskari hujjat chastotasi) IDFi = log10 (N/ni) formulasi bilan aniqlanadi. TF −IDFij = TFij×IDFi formulasi j hujjatidagi i so‘zi uchun ham qo‘llaniladi. Ma'lumotlar to'plamining har bir qatorida oltita holat uchun mos xususiyat vektori tuzilgan va har bir holat uchun tajribalar o'tkaziladi. Ushbu holatlar va eksperimental natijalar natijalar bo'limida batafsil bayon etilgan.
3.4. Model
Onlayn yangiliklar maqolalarining ko'p sinfli matn tasnifini amalga oshirishda biz 6 xil mashinani o'rganish algoritmlarini qo'lladik: Yordam vektor mashinalari, Qaror daraxti tasniflagichi, Tasodifiy o'rmon, Logistik regressiya, Multinomial Na¨ive Bayes. SVM uchun bir nechta yadro funktsiyalari, xususan, chiziqli qo'llab-quvvatlash vektor tasnifi (chiziqli SVC) va radial asosli funktsiyali qo'llab-quvvatlash vektor mashinasi (RBF SVM) ishlatilgan. Ushbu tasniflagichlarni amalga oshirish uchun Python til muhiti va dasturlash tizimida bajarilgan Scikitlearn mashina o'rganish kutubxonasidan [20] foydalanilgan. Ushbu muammoni hal qilish uchun biz ishlab chiqqan model quyidagi funktsional diagrammada keltirilgan (2-rasm).
2-rasm. O‘zbek xabarlarini ko‘p sinfli matnli tasniflash uchun taklif etilayotgan modelning umumiy tuzilishi.

Taklif etilayotgan modelning batafsil algoritmik tavsifi, funksional diagrammasi 1-rasmda keltirilgan.

Download 154,26 Kb.

Do'stlaringiz bilan baham:

1 2 3 4 5 6 7 8 9 10 ... 13