Kalit so ‘zlar: nomuhim so‘zlar, unigram metodi, bigram metodi, kollakatsiya metodi, text mining, TF-IDF.
Ключевые слова: неважные слова, метод униграмм, метод биграмм, метод словосочета- ний, text mining, TF-IDF.
Key words: stop words, unigram method, bigram method, collocation method, text mining, TF-IDF.
Nomuhim so‘zlarni inglizchada stop words tushunchasi talqini bo‘lib, matnda mustaqil ma’noga ega bo‘lmagan so‘z yoki ularni tashlab yuborish matn ma’nosini deyarli o‘zgartirmaydigan so‘zlar hisob- lanadi.
Nomuhim so‘zlarni matnda quyidagi xususiyatlarga ega:
ular matnda ko‘p marta takrorlanadi;
ular qidiruv kalit so‘zi sifatida ishlatilmaydi;
ular matndan olib tashlanganda, uning ma’nosiga katta ta’sir qilmaydi;
ular umumiy so‘zlar bo‘lib, ixtiyoriy sohaning matnlarida ishlatiladi;
ular alohida qo‘llanganda to‘liq gap hosil qilmaydi.
Nomuhim so‘zlar bilan ishlash va matnda ularni olib tashlash bo‘yicha birinchi ish Hans Piter Lu- hanga (1896–1964) tegishli. 1950-yillarda 16 kilobayt xotiraga ega kompyuterlar eng zamonaviy hisob- langan.1 Luhn katta hajmdagi axborotlarga oldindan ishlov berish orqali qisqartirishni amalga oshirgan, ya’ni, ma’noga ega bo‘lmagan ma’lumotlarning barcha toifalarini olib tashlashni alohida ahamiyatga ega deb hisobladi.
O‘zbek tili matnlarda nomuhim so‘zlar har bir gapda bo‘ladi. Grammatik qoidaga ko‘ra, gap bo‘- laklarga bo‘linadi.
Gap boʻlaklari ‒ gap tuzilmasida muayyan soʻroqqa javob boʻlib, maʼlum bir sintaktik vazifani ba- jaruvchi soʻz va soʻz birikmalari bo‘ladi.2 Gap bo‘laklari gap tuzilmasidagi ahamiyatiga koʻra, quyidagi 2 asosiy turga ajraladi:
bosh boʻlaklar ‒ gapning asosini tashkil etuvchi ega va kesimdan iborat boʻladi;
ikkinchi darajali boʻlaklar ‒ bosh boʻlaklar bilan yoki oʻzaro bir-birlari bilan tobe aloqada boʻ- ladi, hokim boʻlak maʼnosini aniqdab, toʻldirib, izohlab keladi hamda asosiy xususiyatlariga koʻra aniq- lovchi, toʻldiruvchi va holga boʻlinadi.
Gap faqat ega va kesimda iborat bo‘lganda, odatda, nomuhim so‘zlar deyarli qatnashmaydi. Nomu- him so‘zlar, asosan, ikkinchi darajali gap boʻlaklarda bir va undan ortiq miqdorda qatnashadi. O‘zbek tili
1 H.P.Luhn. A statistical approach to mechanized encoding and searching of literary information, IBM Journal of re- search and development. 1 (4), 1957.
2 Jamolxonov H.A. Hozirgi o‘zbek adabiy tili. T., “Talqin”, 2005.
matnlar tarkibidagi gaplarning ko‘pchilik qismi ega, kesim, aniqlovchi, toʻldiruvchi va hollar bilan boyiti- lilb ifodalanadi, natijada gap tarkibida nomuhim so‘zlar oshib boradi.
Kompyuter muhim axborotni qidirish jarayonida har bir so‘zni birma-bir o‘tkazib chiqadi. Nomu- him so‘zlar matn tarkibida oshishi axborotlarni qidirish masalasida saralashlar soninining oshib ketishi yuzaga keladi.
Matnda ko‘p so‘zlar kompyuter xotirasida ko‘proq hajmni egallaydi. Kompyuter protsessori masa- lana yechishda tezkor xotiraga yuklaydi. Doimiy xotiradagi faylning tezkor xotiraga yuklanish tezligi haj- miga bog‘liq bo‘ladi. Hajm qancha katta bo‘lsa, faylning yuklanish vaqti oshib boradi. Shuningdek, fayl tarkibidagi matnni avtomatik qayta ishlanganda ham hajmiga bog‘liq bo‘ladi.
Yuqoridagi kabi muammolarni hal qilshda matn tarkibidagi nomuhim so‘zlarni aniqlash va ularni olib tashlashdan iborat. Nomuhim so‘zlar matn tarkibidan ma’nosini saqlagan holda, uning hajmini avto- matik kichraytirishda quyidagi masalalarni yechishda ahamyatga ega hisoblanadi:
kalit so‘zlarni avtomatik tuzish masalasi;
matn annotatsiyasini avtomatik tuzish masalasi;
text mining masalasida matnni strukturalashtirishga erishiladi;
matn bo‘yicha avtomatik xulosa berish.
Kalit so‘z deb mavzuning mazmunini ochib beradigan so‘zga aytiladi. Ko‘pchilik holatlarda matn tarkibida yozilgan gaplar mazmuni aynan bitta tushuncha bilan ifodalanadi. Internetda ma’lumotlar kalit so‘zlar bilan qidiriladi.
Annotatsiya – qisqacha ta’rif. Kitob, maqola, qoʻlyozma mundarijasini, gʻoyaviy yoʻnalishini va boshqa jihatlarini ochib beradi. Annotatsiyani, masalan, kitobning oʻzida, bibliografik koʻrsatkichlarda va kutubxona kataloglarida uchratish mumkin. Uning vazifasi oʻquvchilarda muayyan kitob, maqola, qoʻl- yozma toʻgʻrisida umumiy tasavvur tugʻdirish va ularga adabiyotlar tanlashda yordam koʻrsatishdir.
Text mining ‒ bu tizimlashtirilmagan matnli ma’lumotlarni mashinada ishlov berish uchun qulay shaklda taqdim etilgan tuzilgan ma’lumotlar to‘plamiga aylantirish orqali olish texnologiyasi hisoblana- di.1
Text mining, odatda, tahlil qilish, ba’zi lingvistik funksiyalardan foydalangan holda, manba matn- ni tuzish, uni ma’lumotlar bazasiga yuklash va natijalarni sharhlash jarayonini o‘z ichiga oladi. Asosiy maqsad matnni tahlil qilish uchun mos bo‘lgan, tuzilgan ma’lumotlarga aylantirishdir. Matnni tahlil qilish natijalari ayrim sifat mezonlari, jumladan, dolzarblik, yangilik va qiziqish nuqtayi nazaridan baholanadi. Odatda, matnni tahlil qilish vazifalariga quyidagilar kiradi:
turkumlash,
klasterlash,
tushunchalar (obyektlar)ni chiqarish,
taksonomiyalarning rivojlanishi;
hujjatlarning qisqacha mazmuni;
obyektlar o‘rtasidagi munosabatlarni modellashtirish;
tematik indekslash;
kalit so‘zlarni qidirish;
so‘zlarning chastota taqsimotini o‘rganish;
izoh va boshqalar.
Matn bo‘yicha avtomatik xulosa berish ‒ bir yoki bir nechta hujjatlardan eng muhim ma’lumotlarni ajratib olish va ularning mazmuni bo‘yicha qisqacha xulosalar yoki hisobotlarni yaratish.
Nomuhim so‘zlarni matndan avtomatik qidirib topish va ularni matndan olib tashlash axborotni qidirish va matnni avtomatik tahlil qilish jarayonini uchun juda katta ahamiyatga ega.2 Flektiv tillar oilasi uchun berilgan matndan nomuhim so‘zlarni avtomatik qidirib topish va ularni matndan olib tashlash ma- salasi yetarlicha o‘rganilgan bo‘lib, agglutinativ tillar uchun mavjud metodlarni to‘g‘ridan to‘g‘ri qo‘llab bo‘lmaydi. Masalan, flektiv tillar uchun artikllar, predloglar nomuhim so‘zlardir. Agglutinativ tillarda predlog va artikllar yo‘qdir. Shu nuqtayi nazardan, agglutinativ tillar, xususan, o‘zbek tili uchun nomuhim so‘zlar tushunchasini aniqlash zarurati paydo bo‘ladi.
1 Aggarwal C.C., Zhai C. Mining Text Data. “Springer”, 2012.
2 K.Madatov, S.Bekchanov, J.Vičič. Automatic Detection of Stop Words for Texts in the Uzbek Language. Pre- prints, MDPI, 2022.
Ta’rif. Agar so‘zlarni matndan olib tashlaganda, uning ma’nosini mantiqan o‘zgartirmasa yoki kam o‘zgartirsa, bunday so‘zlar nomuhim so‘zlar deb ataladi.
O‘zbek tili matnlarda nomuhim so‘zlarni aniqlash usullarini ikkita asosiy toifaga bo‘linadi:
grammatik qoidalarga asoslanib;
statistik usullar.
O‘zbek tili grammatik qoidalariga ko‘ra, quyidagilarga tegishli so‘zlar nomuhim so‘zlarni bo‘lish ehtimoli katta:1
olmosh;
modal fe’llar;
kirish so‘z;
ergash gap;
yordamchi so‘zlar (ko‘makchilar, bog‘lovchilar, yuklamalar).
statistik usul: TF-IDF2 asosidagi nomuhim so‘zlarni aniqlash usuli.
Term Frequency ‒ Inverse Document Frequency (TF-IDF) o‘zbekcha matnlardagi nomuhim so‘z- larni aniqlash uchun ishlatiladi. TF-IDF ‒ bu so‘zning korpusdagi hujjat uchun qanchalik muhimligini aks ettirish uchun mo‘ljallangan raqamli statistikaga asoslanadi. Eng past TF-IDF qiymatlari hujjatning se- mantik ma’nosi uchun kamroq ahamiyatga ega deb hisoblaymiz. Bu so‘zlarni nomuhim so‘zlar nomzod- lari sifatida taklif qilInadi.
TF (t, d )
IDF (t) ln
t hujjatda so ' z chastatasi hujjatdagi jami so ' zlar
jami hujjat soni
TF IDF TF (t, d )* IDF (t)
t jami hujjatda qatnashgan so ' z chastatasi
Umuman olganda, TF – hujjatdagi yuqori chastotali so‘zlarni IDF – teskari hujjat chastatasiga ko‘- paytirib, so‘zlarning ma’nosini tenglashtiradi.
Do'stlaringiz bilan baham: |