Тилини ривожлантириш департаменти ўзбекистон республикаси олий ва ўрта махсус таълим вазирлиги



Download 8,89 Mb.
Pdf ko'rish
bet343/398
Sana02.06.2023
Hajmi8,89 Mb.
#948061
1   ...   339   340   341   342   343   344   345   346   ...   398
Alisher Navoiy nomidagi Toshkent 
davlat o‘zbek tili va adabiyoti 
universiteti 
“O‘ZBEK MILLIY VA TA’LIMIY 
KORPUSLARINI YARATISHNING NAZARIY 
HAMDA AMALIY MASALALARI”
Xalqaro ilmiy-amaliy konferensiya
Vol. 1
№. 01 (2021) 
298 

Ma’lumotlarni qo‘lda kiritish: bu kompyuterga matnlarni terish orqali amalga oshiriladi. Bu 
qo‘lda yozilgan materiallar, og‘zaki matnlarning nusxalari va eski qo‘lyozmalardan 
ma’lumotlarni yig‘ish uchun eng yaxshi vosita. 
Korpus qurilishida, matnlar joylashuvida, albatta, xorijiy tillarda oldindan mavjud korpus 
amaliyotlari va tajribalaridan foydalanildi. Hali ish to‘liq yakunlanmagan bo‘lsa ham, lekin jarayon 
tadrijiy va bosqichma-bosqich amalga oshirildi. Korpuslar qurilishida dasturiy ta’minot korpus oldiga 
qo‘yilgan maqsad, korpus turiga ko‘ra ham tanlanadi. Korpus platformasi tayyor bo‘lgach, matnlar yig‘ila 
boshlandi. Mavjud korpuslar qurilishi o‘rganilganda MySQL ma’lumotlar bazasidan foydalanilgani 
ma’lum bo‘ldi. Biz o‘zbek tili elektron axborot matnlari korpusi uchun PostgreSQL ma’lumotlar 
bazasidan foydalandik. Bu ma’lumotlar bazasi korpusda ma’lumotlarni saqlash, yangilash uchun 
ishlatilgan.
Olimlar korpusga to‘plangan til namunalarini “xom” matnlar deb hisoblaydi [McEnery, Hardie, 
2006: 31]. Korpusning boshqa ma’lumotlar bazasidan yoki internetdagi elektron matnlaridan farqi til 
birliklariga maxsus lingvistik belgilar qo‘yilishi, ya’ni teglanishi hisoblanadi. Biz korpusda kontekstlarda 
nutq qismlarini teglash masalasini hal qilish uchun ingliz, rus va turk tillarining milliy korpuslaridagi 
teglash jarayonini o‘rgandik. Shuningdek dunyo tilshunosligida yaratilgan CES (Corpus encoding 
standard) [CES: internet manba], TEI (Text encoding initiative) [TEI: internet manba], CLAWS 
(Constituent likelihood automatic word-tagging system) [CLAWS: internet manba] va Brill teglari [Brill: 
internet manba] va teglash usullari bilan tanishdik. O‘zbek tilida nutq qismlari uchun lotin grafikasi 
asosidagi standard qisqartmalarni olishga qaror qildik. Masalan, sifat so‘z turkumi uchun tegi, 
tinish belgilari uchun tegi yoki birinchi shaxs egalik uchun <1shE> teglari belgilandi. Masalan, 
kontekstda 
dorilarning
so‘zi lemma: dori
keldim
so‘zi lemma: kel, 

yozuvchining asari
so‘z birikmasi lemma: yozuvchi ot+Bir+Qark+Yas, sem AOT>, lemma: asar sifatida teglanadi. 
Korpusning hozirgi imkoniyatlarida o‘zbek tilidagi matnlar morfologik va semantik xususiyatlariga ko‘ra 
annotatsiyalandi. Nutq birliklarini yorliqlashda yana bir muammoga duch kelindi, ya’ni o‘zbek tilida 
lisoniy birliklar uchun teglar ishlab chiqilmagan va bir me’yorga solinmagan. Chunki teglar leksik 
yozuvlardan farq qiladi. Biz leksik qoidalarda mustahkamlangan birliklarning qisqartma nomlarini 
belgilashga harakat qildik. 
Albatta korpusda birliklarni lemma va teglarga ajratish masalasida, nafaqat korpus va unga oid 
bilimlardan, shuningdek, til haqidagi bir qator lingvistik bilimlardan foydalandik. Masalan, matnlarda 
uchragan ba’zi muammoli jihatlarini tushunish uchun o‘zbek tilining 5 tomli izohli lug‘atini tahlil qildik 
[O‘zbek tilining izohli lug‘ati]. Unda nafaqat ildizlar va bitta so‘zlarni, balki ko‘p so‘zli iboralar, iboralar, 
nutqning alohida qismini tayinlashni talab qiladigan so‘z birikmalarini va alohida qism bo‘lgan so‘zlarni 
o‘z ichiga olgan keng qamrovli leksikoni ko‘rib chiqildi. Tadqiqot ishimizning asosiy qismi hisoblangan 
O‘zbek tili axborot matnlari korpusida har bir nutq qismi grammatikaga oid kitoblar va lug‘atlar 
yordamida qo‘l mehnati bilan lemmaga ajratilmoqda. Dunyo tajribasida ko‘rish mumkinki, ilk korpus 
namunalarida matnlar ustidagi barcha amallar qo‘l mehnati bilan amalga oshirilgan. Ammo yuqoridagi 
ilmiy nazariyalardan shuni aniqladikki, o‘zbek tili lug‘ati va barcha qo‘shimchalarni ma’lumotlar 
bazasiga yuklab, o‘zbek tili lemmatizatori algoritmini yaratsa bo‘ladi. Albatta, ilk dasturlarda xatoliklar 
uchrashi mumkin, chunki til murakkab tuzilmalarga ega, tabiiy til namunalarida kutilmagan qoliplarga 
duch kelish ehtimoli doim yuqori bo‘lgan. 
Korpus dasturi qurilishida hajmi masalasi ham alohida ahamiyat kasb etadi. Ammo korpus 
lingvistikasi va korpuslar qurilishiga oid nazariyalarda miqdor o‘lchovi qanday tartibga asoslanib olinishi 
isbotlab berilmagan. Korpusning kattaligi haqida gap ketganda, kelishilgan taxminiy standart hajm 
mavjud emas. Har bir korpus o‘z maqsadi va ma’lumotlariga ega, shuning uchun qabul qilinadigan 
kattalik nima ekanligini aniqlash juda murakkab. Masalan talaba tomonidan 30 daqiqada tuzilgan korpus 
tadqiqot uchun mo‘ljallangan korpusning o‘lchamiga teng bo‘lmaydi (va bo‘lmasligi ham kerak). 
Tadqiqot maqsadida tuzilgan korpus buyumlarning til namunalariga oid turli xil dalillarni taqdim etishga 
harakat qiladi, shuning uchun dalil sifatida muhim ma’lumotlarni taqdim etish uchun u etarlicha katta va 
izchil bo‘lishi kerak. Vaqt o‘tishi va texnologiyalar rivojlanib borishi bilan korpuslar hajmi keskin o‘sib 
bordi. Birinchi marta kompyuterlashtirilgan Brown Korpusi hajmi 1 million so‘zni tashkil etdi va hozirgi 
korpuslar, masalan, Collins Cobuild Bank of English, 650 million so‘zga ega va veb-korpuslar, bu 1 
milliard so‘zga teng bo‘lishi mumkin. Tabiiy davr talabiga ko‘ra bu 1 milliardlik korpuslar ham eskirishi 



Download 8,89 Mb.

Do'stlaringiz bilan baham:
1   ...   339   340   341   342   343   344   345   346   ...   398




Ma'lumotlar bazasi mualliflik huquqi bilan himoyalangan ©hozir.org 2024
ma'muriyatiga murojaat qiling

kiriting | ro'yxatdan o'tish
    Bosh sahifa
юртда тантана
Боғда битган
Бугун юртда
Эшитганлар жилманглар
Эшитмадим деманглар
битган бодомлар
Yangiariq tumani
qitish marakazi
Raqamli texnologiyalar
ilishida muhokamadan
tasdiqqa tavsiya
tavsiya etilgan
iqtisodiyot kafedrasi
steiermarkischen landesregierung
asarlaringizni yuboring
o'zingizning asarlaringizni
Iltimos faqat
faqat o'zingizning
steierm rkischen
landesregierung fachabteilung
rkischen landesregierung
hamshira loyihasi
loyihasi mavsum
faolyatining oqibatlari
asosiy adabiyotlar
fakulteti ahborot
ahborot havfsizligi
havfsizligi kafedrasi
fanidan bo’yicha
fakulteti iqtisodiyot
boshqaruv fakulteti
chiqarishda boshqaruv
ishlab chiqarishda
iqtisodiyot fakultet
multiservis tarmoqlari
fanidan asosiy
Uzbek fanidan
mavzulari potok
asosidagi multiservis
'aliyyil a'ziym
billahil 'aliyyil
illaa billahil
quvvata illaa
falah' deganida
Kompyuter savodxonligi
bo’yicha mustaqil
'alal falah'
Hayya 'alal
'alas soloh
Hayya 'alas
mavsum boyicha


yuklab olish