O’zbekiston respublikasi axborot texnologiyalari va kommunikatsiyalarini rivojlantirish vazirligi muhammad al-xorazmiy nomidagi toshkent axborot texnologiyalari universiteti samarqand filiali



Download 154,26 Kb.
bet3/13
Sana01.02.2022
Hajmi154,26 Kb.
#424710
1   2   3   4   5   6   7   8   9   ...   13
Bog'liq
1-mustaqil ish

1.Kirish
Matnlarni tasniflash usullari, asosan, yangiliklar matnlari, Internet maqolalari va hikoyalarining avval belgilangan toifalarning u yoki bu toifalariga tegishliligini aniqlash uchun ishlatiladi. Shuning uchun tasniflashdan maqsad yangi matnning u yoki bu turkumga tegishli ekanligini aniqlashdan iborat. Axborot texnologiyalarining uzluksiz rivojlanishi axborot (ma'lumotlar) hajmining oshishiga bevosita ta'sir qiladi. Ushbu hajmdagi ma'lumotlardan muhim va qiziqarli ma'lumotlarni ajratib olishning samarali usullaridan biri ularni sinflarga (toifalarga) bo'lishdir. Ma'lumotlar hajmining tez o'sishi tasniflashning murakkabligini oshiradi; qo'lda tasniflash uchun ham ko'p vaqt va mehnat talab etiladi; bu va boshqa omillar elektron hujjatlarni avtomatlashtirilgan tasniflash zarurati va ahamiyatini ko‘rsatadi. Shuning uchun biz ushbu maqolada o'zbek tilidagi onlayn xabarlarni avtomatlashtirilgan tasniflash vazifalarini ko'rib chiqamiz.
So'nggi o'n yillikda katta lingvistik resurslarga ega tillar uchun matnlarni tasniflash muammolarini ilmiy tadqiqotlar soni sezilarli darajada oshdi. Tahlillarimiz shuni ko‘rsatadiki, o‘zbek matn tasnifi sohasida biz ancha orqada qolganmiz. Biroq o‘zbek tilida chop etilayotgan internet matnlari soni muttasil ortib bormoqda. Masalan, www.uz O‘zbekiston Respublikasi Milliy qidiruv tizimining yangiliklar va ommaviy axborot vositalari ro‘yxatiga 200 ga yaqin saytlar,
ularning har biri har kuni o'rtacha 20 ta maqolani onlayn nashr etadi. Turli ixtisoslikdagi odamlar bu yangilikka qiziqishmoqda. Muhim va qiziqarli yangiliklarni topish juda ko'p vaqtni oladi va bu fakt yangiliklar maqolalarini tasniflash (toifalash) muammolarini hal qilish zaruratini yanada kuchaytiradi.
Yangiliklar odatda mavzu toifalariga yoki ma'lum bir geografik hududga tegishli bo'yicha tasniflanadi, maqolalar ular bog'langan tipik sohalarga ko'ra tasniflanadi. Guruhlar (San’at, Iqtisodiyot, Siyosat, Sport va h.k.) matnlarni avtomatlashtirilgan tarzda terish biznes sinflari uchun ham, jismoniy shaxslar uchun ham muhim [1].
Ingliz tilidagi matnlarni tasniflash bo'yicha ko'plab ilmiy tadqiqotlar olib borildi. Ushbu sohada n-gram modeli va TF-IDF algoritmlaridan foydalangan holda boshqa tillar uchun tadqiqotlar mavjud. Masalan, [2, 3, 4] da turkiy tildagi matnlarni tasniflash muammolari ko‘rib chiqiladi. Xuddi shu muammolar tadqiqot va nashrlarda [5, 6, 7] arab tili uchun, xitoy xabarlari matn tasnifi [8, 9] da, Indoneziya xabarlari uchun matn tasnifi [10, 11], sloven tilining hissiyot tasnifida hal qilingan. [12] da xabar matnlari, [13] da uygʻur va qozoq tillarining matn tasnifi, [14] da yapon tili uchun kategoriya tasnifi va mavzu ochish vazifalari, [15] da rus tilidagi ilmiy matnlarni avtomatik tasniflash, sind tili uchun ham shunga oʻxshash muammolar oʻrganilgan. [16], Vetnam [17]. Boshqa tillardan farqli o‘laroq, o‘zbek tilidagi matnlarni tasniflash vazifalari yetarli darajada o‘rganilmaganligini yuqorida ta’kidlagan edik. O‘zbek tilida sentiment tahlili sohasidagi ilk tadqiqotlardan biri E.Kuriyozov, S.Matlatipovlar tomonidan olib borilgan [18]. Matnlarni tasniflash bo‘yicha qo‘shimcha vazifalar hal etilgan kam sonli ishlar, o‘zbek tilidagi matnlarni avtomatlashtirilgan qayta ishlash uchun resurslarning yo‘qligi ishimizning yangiligi va dolzarbligini mustahkamlaydi. Oʻzbek tilining oilasi va guruhiga kelsak, u Oltoy tillari oilasining turkiy guruhiga kiradi. Bu Oʻzbekiston Respublikasining rasmiy tili boʻlib, respublika aholisining 34 millionga yaqini bu tilda soʻzlashadi va bir qancha mamlakatlarda bu til tushuniladi va muloqotda qoʻllaniladi. Ushbu maqolada o‘zbek xabarlarini avtomatlashtirilgan tasniflash uchun TF-IDF algoritmi bilan so‘z darajasidagi n-gramm va belgilar darajasidagi n-gramm modellaridan foydalanamiz. Ko'p sinfli matn tasnifini amalga oshirishda 6 ta mashinani o'rganish algoritmlari guruhi qo'llaniladi: Yordam vektor mashinalari, Qaror daraxti tasniflagichi, Tasodifiy o'rmon, Logistik regressiya va Multinomial Na¨ive Bayes. Natijalar turli n-gramm modellari va mashinani o'rganish algoritmlari o'rtasida taqqoslanadi.
Matnni tasniflash vazifasini matematik tarzda tavsiflash. n - hujjatlar va oldindan belgilangan C = {c1,c2,...,sm} to'plamidan iborat D = {d1,d2,...,dn} hujjatlar to'plami berilsin, m - toifalardan iborat. . F : D × C → true, false xaritalash klassifikator deb ataladi. Bu yerda di ∈ D , cj ∈ C, agar F(di,cj) = rost boʻlsa, di hujjati cj turkumiga kiradi, aks holda di hujjati cj turkumiga kirmaydi. Tasniflash vazifalari ham ikkilik, ko‘p sinfli, ko‘p belgili masalalar kabi turli yo‘nalishlarga bo‘linadi [17].
Biz o‘z ishimizda o‘zbek tilida yozilgan matnlar uchun ko‘p sinfli matnlarni tasniflash vazifasini muhokama qilamiz.

Download 154,26 Kb.

Do'stlaringiz bilan baham:
1   2   3   4   5   6   7   8   9   ...   13




Ma'lumotlar bazasi mualliflik huquqi bilan himoyalangan ©hozir.org 2024
ma'muriyatiga murojaat qiling

kiriting | ro'yxatdan o'tish
    Bosh sahifa
юртда тантана
Боғда битган
Бугун юртда
Эшитганлар жилманглар
Эшитмадим деманглар
битган бодомлар
Yangiariq tumani
qitish marakazi
Raqamli texnologiyalar
ilishida muhokamadan
tasdiqqa tavsiya
tavsiya etilgan
iqtisodiyot kafedrasi
steiermarkischen landesregierung
asarlaringizni yuboring
o'zingizning asarlaringizni
Iltimos faqat
faqat o'zingizning
steierm rkischen
landesregierung fachabteilung
rkischen landesregierung
hamshira loyihasi
loyihasi mavsum
faolyatining oqibatlari
asosiy adabiyotlar
fakulteti ahborot
ahborot havfsizligi
havfsizligi kafedrasi
fanidan bo’yicha
fakulteti iqtisodiyot
boshqaruv fakulteti
chiqarishda boshqaruv
ishlab chiqarishda
iqtisodiyot fakultet
multiservis tarmoqlari
fanidan asosiy
Uzbek fanidan
mavzulari potok
asosidagi multiservis
'aliyyil a'ziym
billahil 'aliyyil
illaa billahil
quvvata illaa
falah' deganida
Kompyuter savodxonligi
bo’yicha mustaqil
'alal falah'
Hayya 'alal
'alas soloh
Hayya 'alas
mavsum boyicha


yuklab olish