172
hisoblanadi. Shu bois ushbu bosqichni
tahrir bosqichi
deb emas, balki
lingvistik tahlil bosqichi
, deyish mumkin. Bir so‗zshakl bir qancha
so‗zning grammatik shakliga to‗g‗ri kelishi mumkin.
Bunday hollarda
so‗zlarni farqlash uchun matn kirituvchiga shunday so‗zlar varianti
ko‗rsatiladi va matn teruvchi so‗zlardan muvofiqini tanlab qo‗yadi. Ushbu
jarayon morfologik tahrirda ham kuzatiladi. Ya‘ni so‗zning xato yozilgani
aniqlangach, matn teruvchiga tanlab qo‗yish imkonini beruvchi so‗zlar
variantini taklif etadi. Sintaktik tahlilda asosiy maqsad so‗zlarning o‗zaro
bog‗lanish me‘yorlarini e‘tiborga olishdir.
Matnlarni
grammatik
tahrir
qilishda
(Grammar
checking)
kompyuterga kiritilayotgan matndagi gap strukturasining grammatik
jihatdan to‗g‗ri tuzilganligi tekshiriladi. Buning uchun dasturga gaplarning
kombinatsiyalarini kiritish talab etiladi. Shunda dastur gapni kiritilgan
ko‗plab me‘yoriy kombinatsiyalar doirasida tekshiradi. Agar gap tuzilish
kombinatsiyalariga muvofiq kelmasa, dastur uni xato deb hisoblaydi va
foydalanuvchiga bu haqda xabar beradi. Grammar checking dasturida
faqat grammatik me‘yorlar emas, balki semantika, so‗zlarning ma‘nosi
hamda mantiqiyligiga ham e‘tibor beriladi. Masalan,
Qush uchmoqda
.
Odam uchmoqda. Devor uchmoqda
gaplari Grammatik jihatdan to‗g‗ri
yozilgan, ya‘ni ega+kesim munosabati mavjud (III shaxs, birlik). Ammo
semantikasiga e‘tibor bersak, gaplar xato tuzilgan. Chunki odamning
qanoti yo‗q, faqat badiiy matndagina insonning uchishi haqida yozish
mumkin. Matnlarni kompyuter vositasida qayta ishlashda ilmiy, rasmiy-
idoraviy, axborot doirasidagi matnlar e‘tiborga olinadi
1
. Keltirilgan
devor
uchmoqda
gapining semantikasi esa noto‗g‗ri va gap hech bir uslubga mos
kelmaydi. Chunki devor muqim bir joyda turuvchi,
binoning, uyning
tomini ko‗tarib turuvchi yoki xonalarga ajratuvchi tik ko‗tarilgan qismi
2
.
Matnlarni semantik tahlil qilish bosqichida tushunchaga ega so‗zning
o‗rinli qo‗llanilayotgani tekshirib boriladi. Buning uchun dastur
ta‘minotiga tezaurus lug‗atlarni kiritish talab qilinadi. Tezaurus lug‗atning
o‗ziga xos maxsus ko‗rinishi bo‗lib, unda lug‗aviy birliklar o‗rtasida
semantik munosabat (sinonimlar, antonimlar, paronimlar, giponimlar,
giperonimlar va boshqalar) ko‗rsatilgan bo‗ladi.
Zamonaviy texnologiyalarning kundalik turmushda muhim o‗rin
egallashi, ilm-fanning rivojlanishi avtomatik tahrir va tahlilning
1
Абжалова М.А.
Ўзбек тилидаги матнларни автоматик таҳрирлашда услуб масаласи//
Таълим тизимидаги ижтимоий-гуманитар фанлар, №2, Т.: 2013, 141-145-бетлар;
L.
Abduhamidova .
Kompyuter lingvistikasining avtomatik tahrir yo‗nalishi. BMI.-T.,2016. 33-36
2
Қаранг: Ўзбек тилининг изоҳли луғати. 1-жилд. Т., 2006., 588-б.
173
ahamiyatini oshirmoqda. Avtomatik tahrir faqat matnlardagi mexanik
xatolarni
bartaraf etibgina qolmay, matnning savodli yozilishini ham
ta‘minlaydi, matn kirituvchiga jumlada xato so‗z borligi haqida xabar
berib, xatoni bartaraf etishga undaydi, natijada to‗liq lingvistik me‘yorlar
darajasidagi matnni yuzaga keltirishda vaqt tejaladi.
So‗zni turkumlarga bo‗lishda ikki umumiy super kategoriya mavjud:
yopiq sinf va ochiq sinf. Yopiq sinflar boshqa a‘zolar bilan aloqa
o‗rnatgan. Masalan, predloglar yopiq sinf hisoblanadi, chunki ana shu
aloqalar natijasida o‗rnatilgan, yangi predloglar kamdan-kam hollarda
hosil bo‗ladi. Bundan farqli ravishda, otlar va fe‘llar
ochiq sinf
hisonlanadi, chunki yangi otlar va fe‘llar davomiy tarzda paydo bo‗lib
boradi yoki boshqa tillardan o‗zlashtiriladi.
Dunyo tillarida to‗rtta katta ochiq guruh mavjud: otlar, fe‘llar, sifatlar
va ravishlar.
So‗zlarni turkumlarga ajratish algoritmi so‗zlarni bir tizimga tizilishi
va ma‘lum bir tartibda belgilanishidir. Ingliz tilida so‗zlarni turkumlarga
ajratishda Brown korpusi (1979) dastlabki asosiy ajratish namunasi bo‗lib,
turli janrlarda yozilgan 500 dan ortiq matndan 1 million ta so‗zlar
to‗plamini o‗z ichiga oladi. Bu korpus birinchi turkumlarga ajratishda
dastlabki tadqiqotlardan biri hisoblanadi. Unda 87 ta ajratilgan to‗plam
berilgan. Keyinchalik 45 ta ajratilgan to‗plamga ega Penn Treebank
korpusi (Marcus, 1993), Britaniya Milliy Korpusi (British National
Corpus, 1997) kabi so‗z turkumlariga ajratishdagi to‗plamlar berilgan.
Ba‘zi turkumlarga ajratishdagi farqlar inson uchun ham, mashina
uchun ham murakkabdir. Masalan, predloglar, yordamchi so‗zlar, ravishlar
katta o‗xshashlikka ega. Masalan,
around
so‗zi yuqorida sanalgan uchta
vazifada ham kelishi mumkin:
1.
Mrs. Shafaer never got
Do'stlaringiz bilan baham: