Alisher Navoiy nomidagi Toshkent
davlat o‘zbek tili va adabiyoti
universiteti
“O‘ZBEK MILLIY VA TA’LIMIY
KORPUSLARINI YARATISHNING NAZARIY
HAMDA AMALIY MASALALARI”
Xalqaro ilmiy-amaliy konferensiya
Vol. 1
№. 01 (2021)
298
Ma’lumotlarni qo‘lda kiritish: bu kompyuterga matnlarni terish orqali amalga oshiriladi. Bu
qo‘lda yozilgan materiallar, og‘zaki matnlarning nusxalari va eski qo‘lyozmalardan
ma’lumotlarni yig‘ish uchun eng yaxshi vosita.
Korpus qurilishida, matnlar joylashuvida, albatta, xorijiy tillarda oldindan mavjud korpus
amaliyotlari va tajribalaridan foydalanildi. Hali ish to‘liq yakunlanmagan bo‘lsa ham, lekin jarayon
tadrijiy va bosqichma-bosqich amalga oshirildi. Korpuslar qurilishida dasturiy ta’minot korpus oldiga
qo‘yilgan maqsad, korpus turiga ko‘ra ham tanlanadi. Korpus platformasi tayyor bo‘lgach, matnlar yig‘ila
boshlandi. Mavjud korpuslar qurilishi o‘rganilganda MySQL ma’lumotlar bazasidan foydalanilgani
ma’lum bo‘ldi. Biz o‘zbek tili elektron axborot matnlari korpusi uchun PostgreSQL ma’lumotlar
bazasidan foydalandik. Bu ma’lumotlar bazasi korpusda ma’lumotlarni saqlash, yangilash uchun
ishlatilgan.
Olimlar korpusga to‘plangan til namunalarini “xom” matnlar deb hisoblaydi [McEnery, Hardie,
2006: 31]. Korpusning boshqa ma’lumotlar bazasidan yoki internetdagi elektron matnlaridan farqi til
birliklariga maxsus lingvistik belgilar qo‘yilishi, ya’ni teglanishi hisoblanadi. Biz korpusda kontekstlarda
nutq qismlarini teglash masalasini hal qilish uchun ingliz, rus va turk tillarining milliy korpuslaridagi
teglash jarayonini o‘rgandik. Shuningdek dunyo tilshunosligida yaratilgan CES (Corpus encoding
standard) [CES: internet manba], TEI (Text encoding initiative) [TEI: internet manba], CLAWS
(Constituent likelihood automatic word-tagging system) [CLAWS: internet manba] va Brill teglari [Brill:
internet manba] va teglash usullari bilan tanishdik. O‘zbek tilida nutq qismlari uchun lotin grafikasi
asosidagi standard qisqartmalarni olishga qaror qildik. Masalan, sifat so‘z turkumi uchun tegi,
tinish belgilari uchun tegi yoki birinchi shaxs egalik uchun <1shE> teglari belgilandi. Masalan,
kontekstda
dorilarning
so‘zi lemma: dori ,
keldim
so‘zi lemma: kel,
,
yozuvchining asari
so‘z birikmasi lemma: yozuvchi ot+Bir+Qark+Yas, sem AOT>, lemma: asar sifatida teglanadi.
Korpusning hozirgi imkoniyatlarida o‘zbek tilidagi matnlar morfologik va semantik xususiyatlariga ko‘ra
annotatsiyalandi. Nutq birliklarini yorliqlashda yana bir muammoga duch kelindi, ya’ni o‘zbek tilida
lisoniy birliklar uchun teglar ishlab chiqilmagan va bir me’yorga solinmagan. Chunki teglar leksik
yozuvlardan farq qiladi. Biz leksik qoidalarda mustahkamlangan birliklarning qisqartma nomlarini
belgilashga harakat qildik.
Albatta korpusda birliklarni lemma va teglarga ajratish masalasida, nafaqat korpus va unga oid
bilimlardan, shuningdek, til haqidagi bir qator lingvistik bilimlardan foydalandik. Masalan, matnlarda
uchragan ba’zi muammoli jihatlarini tushunish uchun o‘zbek tilining 5 tomli izohli lug‘atini tahlil qildik
[O‘zbek tilining izohli lug‘ati]. Unda nafaqat ildizlar va bitta so‘zlarni, balki ko‘p so‘zli iboralar, iboralar,
nutqning alohida qismini tayinlashni talab qiladigan so‘z birikmalarini va alohida qism bo‘lgan so‘zlarni
o‘z ichiga olgan keng qamrovli leksikoni ko‘rib chiqildi. Tadqiqot ishimizning asosiy qismi hisoblangan
O‘zbek tili axborot matnlari korpusida har bir nutq qismi grammatikaga oid kitoblar va lug‘atlar
yordamida qo‘l mehnati bilan lemmaga ajratilmoqda. Dunyo tajribasida ko‘rish mumkinki, ilk korpus
namunalarida matnlar ustidagi barcha amallar qo‘l mehnati bilan amalga oshirilgan. Ammo yuqoridagi
ilmiy nazariyalardan shuni aniqladikki, o‘zbek tili lug‘ati va barcha qo‘shimchalarni ma’lumotlar
bazasiga yuklab, o‘zbek tili lemmatizatori algoritmini yaratsa bo‘ladi. Albatta, ilk dasturlarda xatoliklar
uchrashi mumkin, chunki til murakkab tuzilmalarga ega, tabiiy til namunalarida kutilmagan qoliplarga
duch kelish ehtimoli doim yuqori bo‘lgan.
Korpus dasturi qurilishida hajmi masalasi ham alohida ahamiyat kasb etadi. Ammo korpus
lingvistikasi va korpuslar qurilishiga oid nazariyalarda miqdor o‘lchovi qanday tartibga asoslanib olinishi
isbotlab berilmagan. Korpusning kattaligi haqida gap ketganda, kelishilgan taxminiy standart hajm
mavjud emas. Har bir korpus o‘z maqsadi va ma’lumotlariga ega, shuning uchun qabul qilinadigan
kattalik nima ekanligini aniqlash juda murakkab. Masalan talaba tomonidan 30 daqiqada tuzilgan korpus
tadqiqot uchun mo‘ljallangan korpusning o‘lchamiga teng bo‘lmaydi (va bo‘lmasligi ham kerak).
Tadqiqot maqsadida tuzilgan korpus buyumlarning til namunalariga oid turli xil dalillarni taqdim etishga
harakat qiladi, shuning uchun dalil sifatida muhim ma’lumotlarni taqdim etish uchun u etarlicha katta va
izchil bo‘lishi kerak. Vaqt o‘tishi va texnologiyalar rivojlanib borishi bilan korpuslar hajmi keskin o‘sib
bordi. Birinchi marta kompyuterlashtirilgan Brown Korpusi hajmi 1 million so‘zni tashkil etdi va hozirgi
korpuslar, masalan, Collins Cobuild Bank of English, 650 million so‘zga ega va veb-korpuslar, bu 1
milliard so‘zga teng bo‘lishi mumkin. Tabiiy davr talabiga ko‘ra bu 1 milliardlik korpuslar ham eskirishi
1she> Do'stlaringiz bilan baham: |