Maqsadli foydalanuvchilar
Korpus turlari
Deskriptiv tilshunoslik vakillari
Umumiy, yozma, og‘zaki nutq korpuslari
Tabiiy tilni qayta ishlash (NLP) va til texnologiyasi
(LT) mutaxassislari
Umumiy, monitor, parallel, og‘zaki nutq korpuslari
Og‘zaki
nutq
texnologiyasini
tekshiruvchi
mutaxassislar
Og‘zaki nutq korpusi
Leksikograf va terminolog mutaxassislar
Umumiy,
monitor,
ixtisoslashtirilgan,
ma’lumotnoma,
opportunistik
(imkoniyatli)
korpuslar
Dialog tadqiqotchilari
Og‘zaki nutq, izohlangan, maxsus korpuslar
Toshkent davlat o‘zbek tili va adabiyoti universiteti tayanch doktoranti,
abdullayevaoqila@gmail.com
Alisher Navoiy nomidagi Toshkent
davlat o‘zbek tili va adabiyoti
universiteti
“O‘ZBEK MILLIY VA TA’LIMIY
KORPUSLARINI YARATISHNING NAZARIY
HAMDA AMALIY MASALALARI”
Xalqaro ilmiy-amaliy konferensiya
Vol. 1
№. 01 (2021)
297
Sotsiolingvistlar
Umumiy, yozma, og‘zaki nutq, monitor korpuslar
Psixolingvistlar
Maxsus, og‘zaki nutq, yozma matn korpuslari
Tarixchilar
Badiiy asarlar, diaxronik korpuslar
Sotsiolog olimlar
Umumiy, yozma, og‘zaki nutq, maxsus korpuslar
Qiyosiy tilshunoslik vakilllari
Ikki tilli, ko‘p tilli, parallel, taqqoslanadigan
korpuslar
Mashina tarjimasi mutaxassislari
Ikki tilli, ko‘p tilli, parallel, taqqoslanadigan,
izohlangan korpus
Axborot qidirish bo‘yicha mutaxassislar
Umumiy, monitor va izohlangan korpuslar
Teglash, qayta ishlash va tahlil qilish
mutaxassislari
Izohlangan, monitor, yozma, og‘zaki nutq, umumiy
korpuslar
Asosiy grammatik dizayneri
Taqqoslanadigan, ikki tilli va umumiy korpuslar
So‘z ma’nosini farqlash bilan shug‘ullanuvchi
mutaxassislar
Izohlangan, monitor, yozma, og‘zaki nutq, umumiy
korpuslar
O‘qituvchilar va talabalar
O‘rganuvchi, monitor va umumiy korpus
Tilshunoslar
Korpusning barcha turlari
1-jadval. Korpusdan foydalanuvchilar turi va ularning korpus turiga bo‘lgan ehtiyojlari
Mavjud tadqiqot ishlarini kuzatganimizda, korpus qurish va uning aniq balansi uchun ilmiy o‘lchov
mavjud emasligini xulosa qildik [McEnery, 2006: 31; McEnery, 2012: 48; Aksan, 2012: internet manba].
Til korpuslari oldingi mavjud korpuslar modellari orqali quriladi. Biz ham o‘zbek tilining axborot
matnlari korpusini qurish jarayonida rus tilining milliy korpusi modeli tizimidan foydalanishga harakat
qildik. Ammo har bir tilning o‘ziga xos ichki xususiyatlari mavjudligi korpusni qurish jarayonida
murakkablik tug‘dirdi. Britaniya milliy korpusi, Turk tilining milliy korpusi va rus tilining milliy korpusi
modellari qiyosan o‘rganilib, korpusning dasturiy ta’minoti qurildi. Korpusda ishlar bosqichma-bosqich
amalga oshirildi. 1) o‘zbek tilining barcha lingvistik xususiyatlari ma’lumot sifatida to‘plandi; 2)
to‘plangan ma’lumotlar kompyuterlashtirildi va taxminiy to‘g‘ri sxemasi ishlab chiqildi; 3) mavjud
elektron axborot matnlari yuklab olindi; 4) yuklab olingan matnlar kodlandi, ya’ni metama’lumotlar
kirtildi; 5) matnlar kontekstidagi nutq qismlari annotatsiyalandi; 6) qidiruv tizimi ishlab chiqildi: bunda
webga asoslangan barcha foydalanuvchilar uchun qulay interfeys yaratildi; 7) qo‘shimcha ma’lumotlar
qidiruv interfeysiga joylashtirildi: korpus, korpus imkoniyatlari va korpus mualliflari haqidagi
ma’lumotlar; 8) korpusni e’lon qilish: korpusning eng oxirgi bosqichidamiz, ya’ni korpusni mahalliy
sinovga chiqarish. Korpus versiyasi sinovdan muvaffaqiyatli o‘tgandan so‘ng xalqaro miqyosda
foydalanilishi mumkin.
Korpuslarda ma’lumotlar to‘plamini yaratishda ma’lum vaqt oralig‘i ham tanlanadi. Chunki har bir
korpus turi muayyan vaqt oralig‘ida aks etgan tilning turli xil xususiyatlarini aks ettirishi uchun aniq bir
vaqt ko‘rsatgichi bilan olinishi kerak. Masalan, elektron axborot matnlari korpusida manbalar 2019-2021-
yillar oralig‘idagi xabar saytlaridan olinadi. Ma’lumotlar aniq vaqt oralig‘ida tildan foydalanish
xususiyati va xarakterini yetarli darajada aks ettiradi. Ushbu ma’lumotlar bazasi mazkur davrda sodir
bo‘lgan o‘zgarishlar to‘g‘risida ishonchli ma’lumot beradi.
Korpusda ma’lumotlar to‘plamini yaratishda, matnlarni tanlashda o‘ziga xos usul va yondashuvlari
mavjud. Ma’lumotlarni kiritish usullari:
Elektron manbalardan olingan ma’lumotlar: bu jarayonda gazetalar, jurnallar, jurnallar,
kitoblar va boshqalar matnlari, agar ular elektron shaklda mavjud bo‘lsa, kiritiladi.
Veb-saytlardagi ma’lumotlar: Bunga veb-sahifalar, veb-saytlar va uy sahifalaridagi matnlar
kiradi. O‘zbek tili axborot matnlari korpusiga axborot saytlaridan matnlar yuklandi.
Elektron pochtalardan olingan ma’lumotlar: Ma’lumot manbai sifatida elektron yozuv
mashinasi, elektron pochta xabarlari va boshqalar ishlatiladi.
Matnni mashinada o‘qish: Belgilarni optik tanib olish (OCR) tizimi yordamida bosilgan
matnlarni mashinada o‘qiladigan shaklga o‘tkazadi. Ushbu usul yordamida bosma materiallar
tezda korpusga kiritiladi.
Do'stlaringiz bilan baham: |