DEVELOPMENT OF PREFIX CUTTING ALGORITHM TO SOLVE STEMMING PROBLEM
IN UZBEK LANGUAGE
Sharipov Maksud Siddiqovich*
85
Salayev Ulugbek Ikramovich**
86
Annotatsiya:
Ushbu maqolada oʻzbek tilidagi soʻzlarning old qo`shimchasini qirqish (stemming)
masalasi koʻrib chiqilgan. Bu masalani yechishda ikki xil yondashuv taklif qilingan boʻlib, birinchi
yondashuv boʻyicha old qoʻshimcha bilan boshlangan soʻzlardan old qoʻshimcha olib tashlanadi va
natija soʻz belgilangan lugʻatdan qidiriladi. Ikkinchi yondashuvga asosan, old qoʻshimcha va shu
qoʻshimchaga oʻxshash harflar ketma-ketligi bilan boshlanuvchi soʻzlardan lugʻat yaratiladi, hamda
ikkita toʻplamga ajratiladi. Shular asosida chekli avtomatlar quriladi va algoritmlar ishlab chiqiladi.
Kalit soʻzlar:
Tabiiy tilni qayta ishlash, chekli avtomatlar, oʻzbek tili, prefiks.
Annatation:
In this study, it is analyzed the issues of stripping prefix on stemming in Uzbek. As
proposed approaches, two algorithms were development to remove prefixes at Uzbek words for stemming
purpose. The algorithms based on finite-state machines. According this, needful lexicon was created to
use while performing the algorithms.
Keywords:
Natural Language Processing, Stemming, Finite State Machines, Uzbek language,
Prefix.
Stemmingdan ma’lumotlarni qidirish, mashinali tarjima qilish va matnni umumlashtirish kabi
masalalarni yechishda samaradorlikni oshirish uchun oldindan ishlov berish bosqichi sifatida
foydalaniladi. Shu sababli stemming tabiiy tillarni qayta ishlash jarayoni (NLP–Natural Language
Processing)ning eng muhim masalasidir. Hozirgi kungacha oʻzbek tili uchun stemming masalasini
yechish boʻyicha yetarli darajada algoritmlar va dasturlar ishlab chiqilmaganligi sababli bu masalani
oʻrganish va yechish dolzarb hisoblanadi.
Oʻzbek tili asrlar davomida arab, fors-tojik hamda rus tillari bilan oʻzaro aloqada shakllanib kelgan.
Buning natijasida tilimizga oʻsha tillarga xos boʻlgan yasalmalar va soʻz yasalish qoliplari ham
oʻzlashgan. Shulardan biri old qoʻshimcha (prefiks) yordamida yasaladigan soʻzlar sanaladi. Old
qoʻshimcha asosida yasalgan soʻzlarga misol sifatida quyidagilarni keltirishimiz mumkin:
ba–
: batafsil, badavlat, bahaybat;
be–
: bexavotir, begʻubor, befarosat;
no–
: noumid, noqulay, norozi;
ser–
: serzavq, sergap, serhosil.
Shuningdek, oʻzbek tilida kam hollarda qoʻllanuvchi
badfe’l, badjahl, badnafs, xushxabar, xushroʻy,
xushvaqt, hamfikr, hamshahar, hamsuhbat
kabi soʻz yasalish holatlari ham mavjud.
ba–
,
ser–
qoʻshimchalari, asosan, otga qoʻshilib, asosdan anglashilgan belgi-xususiyatning me’yordan
ortiq, koʻp ekanligini bildirsa,
be–,
no–
qoʻshimchalari uning aksini, ya’ni asosdan anglashilgan belgi-
xususiyatga ega emasligini anglatadi. Solishtirish uchun,
baquvvat, serma’no, behayo, nooʻrin
. Mazkur
qoʻshimchalar
–li
,
–dor
,
–siz
qoʻshimchalari bilan sinonimik munosabatda boʻla oladi.
Masalan:
badavlat
—
davlatli
,
beqiyos
—
qiyossiz
,
nooʻrin
—
oʻrinsiz
,
sertashvish
—
tashvishli
[Madvaliyev A. 2012].
*
85
Urganch davlat universiteti Axborot texnologiyalari kafedrasi dotsenti, maqsbek72@gmail.com
*
86
Urganch davlat universiteti tayanch doktoranti
Do'stlaringiz bilan baham: |