Alisher Navoiy nomidagi Toshkent
davlat o‘zbek tili va adabiyoti
universiteti
“O‘ZBEK MILLIY VA TA’LIMIY
KORPUSLARINI YARATISHNING NAZARIY
HAMDA AMALIY MASALALARI”
Xalqaro ilmiy-amaliy konferensiya
Vol. 1
№. 01 (2021)
316
B1+ darajadagi leksika: o‘zbek tili leksikasining rivojlanishi, boyish manbalarini tushuntira oladi”
[DTS, 2021: 40]
Faqatgina shu izohga tayanib tilning darajalangan leksik asosini yaratish mumkin emas, albatta.
Shuning uchun II darajani tasniflovchi leksik birliklarni DTS asosidagi 10-11-sinf ona tili darsliklarida
taqdim etilgan leksemalar va matnlarni tahlil qilish bilan tadqiqotning amaliyotiga qadam qo‘yish
mumkin. Bu tahlil natijalari tilni darajalashda faqatgina ikki manba – 10-11-sinf ona tili darsliklari
miqyosida chegaralanadi. Bir so‘zning butun ma’no noziklarini izlab topish uchun esa bir yoki ikki
manba emas, butun xalq tomonidan qay shaklda - og‘zaki va yozma; qachon – til taraqqiyotining qaysi
davrlarida; qaysi hududda – dialektologik variantlar asosida; qay vaziyatda – pragmatik xususiyatlari
bilan; qaysi uslublarda va kim tomonidan – gender jihatlari hamda etnosotsiolingvistik jihatlarini
e’tiborga olib yondashish tadqiqotning amaliyoti uchun biror tavsiya berolishiga zamin yaratadi. Biroq
o‘zbek tilining yuqorida sanab o‘tilgan jihatlarini o‘zida qamrab oladigan zamonaviy tizim – Milliy til
korpusining yo‘qligi tilni mukammal darajalashga to‘sqinlik qiladi. Chunki tillarni o‘qitish va baholash
vazifasini bajaruvchi jahon miqyosidagi darajalash tizimlari faqatgina Milliy korpusi mavjud tillardagina
o‘zini oqlagan.
O‘z ona tili yoki o‘zbek tilini ikkinchi til sifatida o‘rganuvchilar, ayniqsa, o‘qish ko‘nikmasini
shakllantirish maqsadida leksik birliklarning uslubiy ma’nolarini, ko‘p ma’noliligini - ma’no noziklarini
turli matnlar orqali o‘rganishadi. Tabiiyki, o‘z-o‘zidan o‘rganilayotgan so‘z qatnashgan matnlar o‘zbek
tilida tarqoq holda bo‘lib, ularni izlab topish alohida vaqt va mehnat talab etadi. Bu masalaning yagona
yechimi esa til korpusining shakllanishiga bog‘liq. Bugungi kun talabidan kelib chiqib, ham online, ham
offline korpusning veb tizimlarini yaratish maqsadga muvofiq. Milliy korpusni yaratish murakkab jarayon
bo‘lib, buni birdaniga shakllantirish qiyin masala. Shu sababli tilda mavjud matnlarni uslublarga ko‘ra
ajratib, bosqichma-bosqich ravishda ish ko‘rish vaziyatni osonlashtiradi. Jumladan, ingliz tili korpusini
yaratishda ishlatilgan Source Finder usuli onlayn gazeta va jurnallarning matnlarini manba sifatida yuklab
olish va ularni qayta ishlagan holda korpus uchun matn yig‘ish bilan xarakterlangan [Passonneau va b.,
2002: 366]. Ammo bu korpusdagi matnlarni muayyan vaqtda yangilab turish imkonini bermagan.
Shundan so‘ng til o‘rganuvchilar uchun soddalashtirilgan ishonchli matnlardan tashkil topgan Weekly
Reader, Simple English Vikipediya va BBC Bitesize korpuslari yaratilgan, Jahon tajribalariga tayangan
holda milliy korpusni kichik korpuslarni yaratishdan, matnlarni esa sodda va murakkabligiga ko‘ra
darajalashdan boshlash maqsadga muvofiq. Masalan, hozirgi o‘zbek adabiy tilining birinchi darajadagi til
o‘rganuvchilari uchun A - birinchi daraja leksikasini o‘zida jamlagan sodda matnli korpuslar, ikkinchi
darajadagi til sohiblari uchun B – ikkinchi daraja leksikasidan iborat o‘rtacha qiyinlikdagi matnli
korpuslar, uchinchi darajadagilar uchun esa C – uchinchi daraja leksikasi mavjud murakkab matnli
korpuslar o‘zbek tilini o‘qitish va darajalab baholash maqsadga muvofiq. Xuddi shunday matnlarni
darajalab yaratilgan korpuslardan biri – SW4ALL korpusi bo‘lib, u Aligned Vikipediya deb ataladi.
Bunda bir til emas, bir nechta tillar tarmog‘ining matnlari katta hajmdagi ensiklopedik manbani tashkil
etadi. Bu korpusning ingliz tilida ikki versiyasi (Coster va Cauchak versiyasi, 2011) mavjud. Korpusga
kiritilgan matnlar soddalashtirilgan bo‘lib, mutaxassislar tomonidan tanlab olingan matnlardan tashqari,
bir leksik birlikni o‘rganayotgan o‘quvchilar tomonidan misol tariqasida yozilgan yozma matn
namunalarini ham qamrab oladi. Ushbu korpus CEFR asosida til o‘rganuvchi 137 millatning 83 mingdan
ortiq vakillari tomonidan 582 mingta so‘zning turli yozma matnlardagi misollari asosida yaratilgan.
Ushbu jarayon natijasida jami 40946 ta matn korpusi shakllangan bo‘lib, shularning 9000 tasi A1, A2,
B1, B2 darajalari uchun, 4466 tasi esa C darajadagilar uchun foydalanishga yaroqli deb topilgan. Mavzuiy
maydonlariga qarab bir-birini taqozo etuvchi so‘z va iboralar saralanib-saralanib, jami 10 mingdan ortiq
matnni o‘z ichiga oluvchi SW4ALL korpusi shakllandi [RodrigoWilkens va b., 2018: 368].
Korpus haqidagi fikrlarni umumlashtirib, kompyuter va korpus lingvistikasining
mutaxassislaridan biri N.Aburahmonovaning “Umuman olganda, korpus tildan foydalanishda uning
statistik analizi, tabiiy tilni qayta ishlash (NLP) dasturiy ta’minoti, leksik resurslarni yaratish, til
o‘qitishda yoki o‘rganish kabi maqsadlarda qo‘llaniladi. Matnlar korpusi tilning dinamik holatini tadqiq
qilishda yoki lingvistikaning turli soha predmetiga ko‘ra analiz qilishda muhim obyekt hisoblanadi”
[Abdurahmonova N, 2020: 57] mazmunidagi fikrlari bugungi kunda zamonaviy o‘zbek amaliy
tilshunosligini yangi bosqichga olib chiqishda muhim ahamiyatga ega.
Demak, tilning nazariy va amaliy jihatlarini tadqiq qilish uchun, avvalo, tilshunoslar, so‘z san’ati
egalari, metodistlar va har bir o‘zbek tilida so‘zlashuvchi millat a’zolari birgalikda Milliy til korpusini
Do'stlaringiz bilan baham: |