1.Kirish
Matnlarni tasniflash usullari, asosan, yangiliklar matnlari, Internet maqolalari va hikoyalarining avval belgilangan toifalarning u yoki bu toifalariga tegishliligini aniqlash uchun ishlatiladi. Shuning uchun tasniflashdan maqsad yangi matnning u yoki bu turkumga tegishli ekanligini aniqlashdan iborat. Axborot texnologiyalarining uzluksiz rivojlanishi axborot (ma'lumotlar) hajmining oshishiga bevosita ta'sir qiladi. Ushbu hajmdagi ma'lumotlardan muhim va qiziqarli ma'lumotlarni ajratib olishning samarali usullaridan biri ularni sinflarga (toifalarga) bo'lishdir. Ma'lumotlar hajmining tez o'sishi tasniflashning murakkabligini oshiradi; qo'lda tasniflash uchun ham ko'p vaqt va mehnat talab etiladi; bu va boshqa omillar elektron hujjatlarni avtomatlashtirilgan tasniflash zarurati va ahamiyatini ko‘rsatadi. Shuning uchun biz ushbu maqolada o'zbek tilidagi onlayn xabarlarni avtomatlashtirilgan tasniflash vazifalarini ko'rib chiqamiz.
So'nggi o'n yillikda katta lingvistik resurslarga ega tillar uchun matnlarni tasniflash muammolarini ilmiy tadqiqotlar soni sezilarli darajada oshdi. Tahlillarimiz shuni ko‘rsatadiki, o‘zbek matn tasnifi sohasida biz ancha orqada qolganmiz. Biroq o‘zbek tilida chop etilayotgan internet matnlari soni muttasil ortib bormoqda. Masalan, www.uz O‘zbekiston Respublikasi Milliy qidiruv tizimining yangiliklar va ommaviy axborot vositalari ro‘yxatiga 200 ga yaqin saytlar,
ularning har biri har kuni o'rtacha 20 ta maqolani onlayn nashr etadi. Turli ixtisoslikdagi odamlar bu yangilikka qiziqishmoqda. Muhim va qiziqarli yangiliklarni topish juda ko'p vaqtni oladi va bu fakt yangiliklar maqolalarini tasniflash (toifalash) muammolarini hal qilish zaruratini yanada kuchaytiradi.
Yangiliklar odatda mavzu toifalariga yoki ma'lum bir geografik hududga tegishli bo'yicha tasniflanadi, maqolalar ular bog'langan tipik sohalarga ko'ra tasniflanadi. Guruhlar (San’at, Iqtisodiyot, Siyosat, Sport va h.k.) matnlarni avtomatlashtirilgan tarzda terish biznes sinflari uchun ham, jismoniy shaxslar uchun ham muhim [1].
Ingliz tilidagi matnlarni tasniflash bo'yicha ko'plab ilmiy tadqiqotlar olib borildi. Ushbu sohada n-gram modeli va TF-IDF algoritmlaridan foydalangan holda boshqa tillar uchun tadqiqotlar mavjud. Masalan, [2, 3, 4] da turkiy tildagi matnlarni tasniflash muammolari ko‘rib chiqiladi. Xuddi shu muammolar tadqiqot va nashrlarda [5, 6, 7] arab tili uchun, xitoy xabarlari matn tasnifi [8, 9] da, Indoneziya xabarlari uchun matn tasnifi [10, 11], sloven tilining hissiyot tasnifida hal qilingan. [12] da xabar matnlari, [13] da uygʻur va qozoq tillarining matn tasnifi, [14] da yapon tili uchun kategoriya tasnifi va mavzu ochish vazifalari, [15] da rus tilidagi ilmiy matnlarni avtomatik tasniflash, sind tili uchun ham shunga oʻxshash muammolar oʻrganilgan. [16], Vetnam [17]. Boshqa tillardan farqli o‘laroq, o‘zbek tilidagi matnlarni tasniflash vazifalari yetarli darajada o‘rganilmaganligini yuqorida ta’kidlagan edik. O‘zbek tilida sentiment tahlili sohasidagi ilk tadqiqotlardan biri E.Kuriyozov, S.Matlatipovlar tomonidan olib borilgan [18]. Matnlarni tasniflash bo‘yicha qo‘shimcha vazifalar hal etilgan kam sonli ishlar, o‘zbek tilidagi matnlarni avtomatlashtirilgan qayta ishlash uchun resurslarning yo‘qligi ishimizning yangiligi va dolzarbligini mustahkamlaydi. Oʻzbek tilining oilasi va guruhiga kelsak, u Oltoy tillari oilasining turkiy guruhiga kiradi. Bu Oʻzbekiston Respublikasining rasmiy tili boʻlib, respublika aholisining 34 millionga yaqini bu tilda soʻzlashadi va bir qancha mamlakatlarda bu til tushuniladi va muloqotda qoʻllaniladi. Ushbu maqolada o‘zbek xabarlarini avtomatlashtirilgan tasniflash uchun TF-IDF algoritmi bilan so‘z darajasidagi n-gramm va belgilar darajasidagi n-gramm modellaridan foydalanamiz. Ko'p sinfli matn tasnifini amalga oshirishda 6 ta mashinani o'rganish algoritmlari guruhi qo'llaniladi: Yordam vektor mashinalari, Qaror daraxti tasniflagichi, Tasodifiy o'rmon, Logistik regressiya va Multinomial Na¨ive Bayes. Natijalar turli n-gramm modellari va mashinani o'rganish algoritmlari o'rtasida taqqoslanadi.
Matnni tasniflash vazifasini matematik tarzda tavsiflash. n - hujjatlar va oldindan belgilangan C = {c1,c2,...,sm} to'plamidan iborat D = {d1,d2,...,dn} hujjatlar to'plami berilsin, m - toifalardan iborat. . F : D × C → true, false xaritalash klassifikator deb ataladi. Bu yerda di ∈ D , cj ∈ C, agar F(di,cj) = rost boʻlsa, di hujjati cj turkumiga kiradi, aks holda di hujjati cj turkumiga kirmaydi. Tasniflash vazifalari ham ikkilik, ko‘p sinfli, ko‘p belgili masalalar kabi turli yo‘nalishlarga bo‘linadi [17].
Biz o‘z ishimizda o‘zbek tilida yozilgan matnlar uchun ko‘p sinfli matnlarni tasniflash vazifasini muhokama qilamiz.
Do'stlaringiz bilan baham: |