Alisher Navoiy nomidagi Toshkent
davlat o‘zbek tili va adabiyoti
universiteti
“O‘ZBEK MILLIY VA TA’LIMIY
KORPUSLARINI YARATISHNING NAZARIY
HAMDA AMALIY MASALALARI”
Xalqaro ilmiy-amaliy konferensiya
Vol. 1
№. 01 (2021)
149
90-yillarning birinchi yarmida korpus tilshunosligi nihoyat til fanining alohida tarmog‘i sifatida
shakllandi. Shu bilan birga, u yutuqlardan foydalangan holda va o‘z navbatida uni boyitib, hisoblash
lingvistikasi bilan chambarchas bog‘liqdir.
Ma’lumotlar korpusida qidirish har qanday so‘z uchun muvofiqlikni yaratishga imkon beradi -
manbaga havolalar bilan berilgan so‘zning kontekstdagi barcha ishlatilishlari ro‘yxati. Korpuslardan
lisoniy va nutq birliklari haqida turli xil ma’lumotnomalar va statistik ma’lumotlarni olish uchun
foydalanish mumkin. Xususan, korpuslar asosida so‘z shakllari, leksemalar, grammatik kategoriyalarning
chastotasi haqida ma’lumot olish, turli davrlarda chastotalar va kontekstlarning o‘zgarishini kuzatib
borish, leksik birliklarning qo‘shma paydo bo‘lishi va boshqalar haqida ma’lumot olish mumkin.
Korpuslar, shuningdek, turli xil tarixiy va zamonaviy lug‘atlarni tayyorlash uchun ko‘p o‘lchovli
leksikografik asarlar uchun manba va vosita sifatida xizmat qilish uchun mo‘ljallangan. Korpus
ma’lumotlari grammatikalarni tuzishda va takomillashtirishda va tilni o‘rgatish maqsadida ishlatilishi
mumkin.
Aytishimiz mumkinki, korpus tilshunosligi o‘z predmeti sifatida keng foydalanuvchilar doirasi
manfaatlari, lingvistik tadqiqotlar uchun mo‘ljallangan lingvistik ma’lumotlarning vakili massivlarini
yaratish va ulardan foydalanishning nazariy asoslari va amaliy mexanizmlariga ega.
Korpus yaratuvchilarining vazifasi – korpus yaratilayotgan tilning pastki qismiga oid iloji boricha
ko‘proq matnlarni to‘plash. Ammo asosiy narsa nafaqat lingvistik materialning hajmida, balki uning
mutanosibligidadir. Aytish mumkinki, korpus - bu tilning qisqartirilgan modeli yoki sublanguage. Korpus
tilshunosligining eng muhim konsepsiyasi – vakillik. Reprezentativlik deganda turli davrlar, janrlar,
uslublar, mualliflar va h.k. matnlar korpusidagi zaruriy, yetarli va mutanosib vakillik tushuniladi. Vakillik
vakolatini aniqlashga turli xil yondashuvlar mavjud, biz aytishimiz mumkinki, umumiy lingvistik (milliy)
korpusga nisbatan ushbu konsepsiya qat’iy matematik tarzda hisoblab chiqilishi va ta’riflanishi mumkin
emas, ammo bunga loyiq bo‘lish va loyihalash bosqichida ham erishish kerak.
“Korpus” atamasi odatda cheklangan, qat’iy o‘lchamdagi matnlar to‘plamini anglatadi. Vaqt o‘tishi
bilan korpus hajmi va tarkibi o‘zgarishi mumkin, ammo bu o‘zgarishlar uning vakilligini o‘zgartirmasligi
yoki oqilona o‘zgarishi kerak. Birinchi korpuslarning hajmi 1 million jetonni tashkil etdi (Braun korpusi,
rus tilining Uppsala korpusi). Hozirgi vaqtda umumiy til korpusining hajmi kamida 100 million jeton
bo‘lishi kerak deb hisoblashadi.
Turli lingvistik muammolarni hal qilish uchun faqat bir qator matnlarga ega bo‘lish yetarli emas.
Shuningdek, matnlarda har xil qo‘shimcha lingvistik va ekstralingvistik ma’lumotlarning aniq bo‘lishi
talab etiladi. Belgilangan korpus g‘oyasi korpus tilshunosligida shunday paydo bo‘lgan. Belgilash
(belgilash, izohlash) matnlarga va ularning tarkibiy qismlariga maxsus teglar (yorliqlar, teglar)
biriktirishdan iborat: tashqi, ekstralingvistik (muallif haqidagi ma’lumotlar va matn haqidagi ma’lumotlar:
muallif, sarlavha, nashr etilgan yili va joyi, janri, mavzusi; muallif haqidagi ma’lumotlar nafaqat uning
ismini, balki yoshi, jinsi, hayot yillari va boshqalarni ham o‘z ichiga olishi mumkin, bu ma’lumot kodlash
meta-tagging), tizimli (bob, paragraf, jumla, so‘z shakli) va lingvistik xususiyatga ega, leksikani
tavsiflaydi. , matn elementlarining grammatik va boshqa xususiyatlari. Ushbu metadata to‘plami asosan
korpuslarning tadqiqotchilarga taqdim etadigan imkoniyatlarini aniqlaydi. Ushbu ma’lumotlarni tanlashda
tadqiqotning maqsadlari va tilshunoslarning ehtiyojlari, shuningdek, matnga ba’zi qo‘shimcha
xususiyatlarni kiritish imkoniyatlarini hisobga olish kerak. Belgilashning lingvistik turlari orasida
quyidagilar ajralib turadi:
Morfologik belgilar. Chet el terminologiyasida nutqning bir qismini belgilash (POS-tagging) atamasi,
so‘zma-so‘z - nutqning bir qismini belgilash atamasi ishlatiladi. Aslida morfologik belgilar tarkibiga
nafaqat nutq qismining belgisi, balki nutqning ushbu qismiga xos bo‘lgan grammatik kategoriyalarning
belgilari ham kiradi. Bu markalashning asosiy turi: birinchidan, aksariyat yirik korpuslar shunchaki
morfologik belgilarga ega korpuslardir, ikkinchidan, morfologik tahlil tahlilning keyingi shakllari uchun
asos sifatida qaraladi - sintaktik va semantik, uchinchidan, kompyuter morfologiyasidagi yutuqlar
avtomatik ravishda katta to‘siqlarni belgilash.
Morfologik tahlil ma’lumotlari asosida amalga oshirilgan ajralish yoki ajralish natijasi bo‘lgan
sintaktik belgilash. Belgilashning bunday turi leksik birliklar va turli sintaktik konstruktsiyalar o‘rtasidagi
sintaktik munosabatlarni tavsiflaydi (masalan, bo‘ysunuvchi gap, fe’l iborasi va boshqalar).
Do'stlaringiz bilan baham: |