Alisher navoiy nomidagi toshkent davlat o„zbek tili va adabiyoti universiteti



Download 3,88 Mb.
Pdf ko'rish
bet93/138
Sana25.04.2022
Hajmi3,88 Mb.
#581651
1   ...   89   90   91   92   93   94   95   96   ...   138
Bog'liq
kompyuter lingvistikasi

Rahimov A.
Kompyuter lingvistikasi asoslari. –T., 2011, 65-bet
2
Abjalova M.A.
Matnlarni avtomatik tahrir va tahlil qilish dasturining lingvistik bosqichlari//Yosh 
olim va talabalarning respublika ilmiy-amaliy anjumani materiallari. –T., 2015, 7-bet.


168 
mukammal ishlab chiqilgani bilan belgilanadi, ular o‗z navbatida 
dasturning bosqichlarini tashkil etadi.
Lingvistik tahrir – bu turli ko‗rinish (ilmiy, badiiy, publisistik va 
rasmiy uslublar)dagi matnlarning orfografik, grammatik, stilistik hamda 
mantiqiy qurilishdagi xatolarni to‗g‗rilashni bildiradi. 
Matnlarni tahrir qilish ikki usulda amalga oshiriladi: 
1.
Inson tomonidan amalga oshiriladigan tahrir (bevosita tahrir – 
muharrirlik ishi). 
2.
Zamonaviy texnika vositasida amalga oshiriladigan tahrir 
(bilvosita, ya‘ni avtomatik tahrir). 
Keyingi 
paytlarda 
axborot 
almashinuvining 
jadallashuvi 
va 
ma‘lumotlar ko‗lamining tobora kengayib ketayotgani sababli bilvosita 
tahrirga bo‗lgan talab oshib bormoqda.
Matnlarni to‗liq avtomatik tahrir va tahlil qilish uchun dastur quyidagi 
modullar asosidagi lingvistik tizimdan tarkib topishi lozim: 
Grafematik tahrir
bosqichida matndagi xatboshi, raqam, punktuatsion 
va boshqa ramziy belgilar aniqlanadi, ya‘ni so‗z va so‗zshakllarga qadar 
tekshiruv amalga oshiriladi. Grafematik tahrir bosqichining maqsadi – 
matndagi eng kichik birliklarni ham aniqlash va tasniflashdan iborat. 
Bunday birliklarga quyidagilar kiradi: so‗z, xatboshi, tinish belgilari, 
sanalar, pul birliklarining ramzlari, so‗z-raqamli birikmalar, sonlar, IP-
manzillar va fayl nomlari, telefon raqamlari. Grafematik tahrir tahrir qilish 
dasturining ilk bosqichi hisoblanib, u keyingi bosqichlarning to‗laqonli va 
samarali bo‗lishi uchun zamin yaratadi. 
Morfologik tahrir
bosqichi asos va shu asosdan yuzaga kelgan 
so‗zshakllarni tekshiradi. Morfologik tahrirning maqsadi – faqat orfografik 
xatolarni tekshirishdan iborat, deb hisoblash uning vazifa ko‗lamini 
toraytiradi. Ushbu bosqichda kiritlayotgan so‗zshaklning qanday asosiy 
shakldan, qaysi lingvistk parametrlardan yuzaga kelgani aniqlanadi. Bu 
keyinchalik bir so‗zning barcha shakllari ustida ishlashga emas, balki 
asosiy shaklning qanday lingvistik parametrlarni olish imkoniyatiga 
egaligi ustida ish olib BORIShga turtki beradi. Masalan, ot turkumidagi 
kitob
so‗zining qanday shakl hosil qiluvchi va sintaktik shakl yasovchi 
qo‗shimchalarni qabul qilishi hamda ularning kombinatsiyasini biriktirib, 
so‗zshakllarni hosil qilish imkoniyati, ya‘ni parametrlari dastur bazasiga 
kiritiladi. Natijada 
kitob 
so‗zining barcha shakllari kiritilib, dastur 
ta‘minotidan katta hajm egallanmaydi, balki asosiy shakl va unga birikishi 
me‘yoriy hisoblangan lingvistik parametrlar kiritilib, hajm iqtisod qilinadi. 


169 
Avtomatik tahrir algoritmlari matnni qayta ishlash uchungina 
ahamiyatli emas. Tadqiqotlarda til materialining avtomatik qayta ishlash 
bosqichlari matnni tushunish bilan bir qatorda korpus yaratuvchilari uchun 
hamda mavjud razmetkalar asosida tadqiqot olib boruvchi lingvistlar 
uchun yangi imkoniyatlar yaratishi ta‘kidlangan. Tabiiy tilni qayta 
ishlashning asosiy protsedurasi sifatida: tokenizatsiya, lemmatizatsiya, 
stemming, parsinglar ajratiladi. 
Tokenizatsiya berilgan matnni tokenlarga bo‗lib tashlashdan iborat. 
Bu algoritmni amalga oshiruvchi dastur 
tokenayzer
deb ataladi. Leksik 
birliklarni ifodalash uchun ―token‖ ishlatiladi. Tokenayzer matnni dastlab 
so‗zlar orasidagi chegara asosida qismlarga bo‗ladi. Bunda matn 
tarkibidagi tinish belgilari olib tashlanadi, chunki dastur tinish belgisini 
ham token sifatida ajratadi. 
Tokenizatsiya, tabiiy tildagi belgilar oqimini alohida mustaqil 
birliklarga (token, so‗zshakllarga) ajratish tabiiy tilni keyingi qayta 
ishlashda zaruriy shart sifatida qaraladi
1
. Tokenlar (so‗zshakllari) <> 
belgisi bilan ajratilgan. Masalan,
[  
 
       
       
 
 
<-> 
 
 
 
 
 
Har bir token tarkibida lemmalar mavjud va bu morfologik tahrirning 
keyingi jarayonlarida aniqlashtiriladi: 
―ishlanib‖ tokeni ―ishla‖ lemmasiga, ―o‗lchovlariga‖ tokeni ―o‗lchov‖ 
lemmasiga mansubdir: 
‘ 
‗ishla‘ 

Download 3,88 Mb.

Do'stlaringiz bilan baham:
1   ...   89   90   91   92   93   94   95   96   ...   138




Ma'lumotlar bazasi mualliflik huquqi bilan himoyalangan ©hozir.org 2024
ma'muriyatiga murojaat qiling

kiriting | ro'yxatdan o'tish
    Bosh sahifa
юртда тантана
Боғда битган
Бугун юртда
Эшитганлар жилманглар
Эшитмадим деманглар
битган бодомлар
Yangiariq tumani
qitish marakazi
Raqamli texnologiyalar
ilishida muhokamadan
tasdiqqa tavsiya
tavsiya etilgan
iqtisodiyot kafedrasi
steiermarkischen landesregierung
asarlaringizni yuboring
o'zingizning asarlaringizni
Iltimos faqat
faqat o'zingizning
steierm rkischen
landesregierung fachabteilung
rkischen landesregierung
hamshira loyihasi
loyihasi mavsum
faolyatining oqibatlari
asosiy adabiyotlar
fakulteti ahborot
ahborot havfsizligi
havfsizligi kafedrasi
fanidan bo’yicha
fakulteti iqtisodiyot
boshqaruv fakulteti
chiqarishda boshqaruv
ishlab chiqarishda
iqtisodiyot fakultet
multiservis tarmoqlari
fanidan asosiy
Uzbek fanidan
mavzulari potok
asosidagi multiservis
'aliyyil a'ziym
billahil 'aliyyil
illaa billahil
quvvata illaa
falah' deganida
Kompyuter savodxonligi
bo’yicha mustaqil
'alal falah'
Hayya 'alal
'alas soloh
Hayya 'alas
mavsum boyicha


yuklab olish