1-jadval: Old qoʻshimchalar va unga tegishli soʻzlar soni
№
Old qoʻshimcha
Old qoʻshimcha yoki shu
qoʻshimcha bilan bir xil harflar
ketma-ketligi bilan boshlangan
soʻzlar soni
Misollar(old qoʻshimcha yoki shu
qoʻshimcha bilan bir xil harflar ketma-
ketligi bilan boshlangan)
1
alla
51
allalash, allanima, allanarsa
2
ba
994
bayram, bazoʻr, baobroʻ, baliq
3
bad
195
badan, badjahl, badnafs
4
bar
253
barobar, barg, barhayot
5
be
1542
beva, begumon, begim
6
bo
1028
bohush, boaql, bobo, boja
7
dar
222
daraxt, dargumon
8
ham
197
hamyon, hamma, hamkasb
9
no
663
noaniq, noasl, non, novvot
10
ser
357
sergoʻsht, seryog‘, server
11
xush
149
xushlash, xushlibos, xushhavo
Jami
5651
Alisher Navoiy nomidagi Toshkent
davlat o‘zbek tili va adabiyoti
universiteti
“O‘ZBEK MILLIY VA TA’LIMIY
KORPUSLARINI YARATISHNING NAZARIY
HAMDA AMALIY MASALALARI”
Xalqaro ilmiy-amaliy konferensiya
Vol. 1
№. 01 (2021)
239
1-jadvalda keltirilgan toʻplamlarning har birini old qoʻshimchali va old qoʻshimcha bilan bir xil
harf birikmasi bilan boshlanuvchi (tub) soʻzlarni aniqlagan holda ikkita qism toʻplamga ajratib olindi.
Natijada har bir old qoʻshimchaga mos soʻzlar ikkita qism toʻplamga ajraldi:
Birinchi toʻplam tub soʻzlardan iborat boʻlib, bu toʻplamdagi soʻzlar oldida old qoʻshimchadagi kabi
harflar ketma-ketligi bor;
Ikkinchi toʻplam soʻzning oldiga old qoʻshimcha qoʻshib yasalgan soʻzlardan iborat;
Demak bizning jadvalimiz boʻyicha 22 ta qism toʻplam hosil boʻldi. Bunda quyidagi
belgilashlarni kiritib olamiz:
Qoʻshimchalar soni
;
,
- toʻplam -chi old qoʻshimcha qoʻshilib yasalgan yasama soʻzlar, hamda old
qoʻshimchadagi harf birikmasi bilan boshlanuvchi soʻzlar toʻplami;
old qoʻshimchali yasama soʻzlar toʻplami.
old qoʻshimcha bilan bir xil harflar ketma-ketligi qoʻshilib boshlanuvchi
soʻzlar.
Bu holda quyidagi tengliklar oʻrinli boʻladi:
Qaralayotgan yondashuvga asosan, mos ravishdagi
va
toʻplamlardan elementlari soni kichik
boʻlgan toʻplamni
shaklida belgilaymiz. Bu yerda aniqlangan
lar -chi old
qoʻshimchali yasama soʻzlar toʻplami yoki old qoʻshimcha bilan bir xil harflar ketma-ketligi qoʻshilib
boshlanuvchi soʻzlar toʻplami boʻlishi mumkin.
Old qoʻshimchalarni olib tashlash algoritmini yaratishda biz taklif qilayotgan yondashuvga
asosan, har bir qoʻshimcha uchun unga mos ikkita qism toʻplamdan oʻlchami kichik boʻlgan toʻplamni
lugʻat sifatida foydalanish uchun ajratib olamiz. Shu sababli,
va
toʻplamlarining oʻlchami
kichigini
deb qabul qilib olamiz. Bunday yondashuvning asosiy maqsadi algoritmning ishlash
tezligini oshirish va kompyuter xotirasini tejashdan iborat.
Oʻzbek tili soʻzlaridagi old qoʻshimchalarni olib tashlash uchun FSM yaratildi (2-rasm). Oʻzbek
tili morfemik qoidasiga asosan, soʻzga faqat bitta old qoʻshimcha qoʻshilishi mumkin. Stemming
masalasini yechishda old qoʻshmchalarni qirqib tashlash uchun 2-rasmga asosan loyihalangan FSM
asosida algoritm tuzildi va ushbu algoritmda foydalaniladigan soʻzlar lugʻati (leksikon) yaratildi.
Do'stlaringiz bilan baham: |