Alisher Navoiy nomidagi Toshkent
davlat o‘zbek tili va adabiyoti
universiteti
“O‘ZBEK MILLIY VA TA’LIMIY
KORPUSLARINI YARATISHNING NAZARIY
HAMDA AMALIY MASALALARI”
Xalqaro ilmiy-amaliy konferensiya
Vol. 1
№. 01 (2021)
52
kompyuter texnologiyalarining o‘rnini aniqlash vazifalari belgilanadi. Korpus lingvistikasi korpuslarni
yaratish va ular asosida lingvistik tadqiqotlarni amalga oshirish, lisoniy tizimlarni obyektiv va lingvistik
yo‘nalishlar: leksikografik tadqiqotlar, tilning leksik qatlami tavsifi, til lug‘at boyligidagi so‘zlarning
qo‘llanish nisbati, tildagi leksik-semantik, struktur o‘zgarishlar, tabiiy tillar grammatikasining
o‘rganilishi, til tizimi mohiyati va uning qo‘llanish tavsifi bilan shug‘ullanadi [Xolmanova, 2019:75].
O‘zbek kompyuter lingvistikasi XX asrning oxirlari XX asr boshlarida shakllandi. Tabiiy tilni qayta
ishlash g‘oyasi amaliyotga tatbiq etila boshladi. “Kompyuter lingvistikasi” yuzasidan o‘quv
qo‘llanmalari, darsliklar e’on qilindi. Bitiruv malakaviy ishlari, magistrlik dissertatsiyalari amalga
oshrildi. Kompyuter lingvistikasi laboratoriyalari tashkil etildi. Doktorlik dissertatsiyalarining mavzulari
belgilandi. O‘zbek tilining axborot uslubini shakllantirish masalasi kun tartibiga qo‘yildi.
Korpus lingvistikasi, dastavval, “Kompyuter lingvistikasi”ning bir yo‘nalishi bo‘lib, keyinchalik alohida
soha sifatida rivojlana boshladi.
Korpus
(korpus) lotincha «tana» degan ma’noni bildiradi. “Korpus so‘z, so‘z birikmasi, grammatik
shakllarni, so‘z ma’nosini muayyan qidiruv tizimi orqali topishni anglatuvchi elektron ko‘rinishdagi
matnlar jamlanmasidir” [http://rusorpora.ru].
Korpus
tushunchasi bilan yonma-yon “matnlar korpusi” atamasi ishlatilmoqda.
Matnlar korpusi
elektron
holda saqlanadigan fonema, grafema, morfemalar, leksema, gap va matnlardan tashkil topishi mumkin
bo‘lgan yaxlit butunlikdir. Korpuslar aslida ma’lumotlar bazasi sifatida shakllantiriladigan, tilshunoslik
masalalarini hal etish maqsadida va turli yo‘nalishdagi tadqiqotlarni amalga oshirish uchun material
sifatida xizmat qiladigan jamlanmadir [Baranov,2001:61].
Jahon tilshunosligida korpusga doir ilk ma’lumotlar XX asrning 40-yillarida qayd etilgan. Korpuslar
tarixi haqida so‘z borar ekan, birinchi navbatda 1961 – 1964 yillarda yaratilgan Braun korpusi tilga
olinadi. Bu korpus Braun universitetida yaratilgan, har biri 2000 so‘zli 500 ta matn fragmentini o‘z
ichiga oladi.
O‘zbek tilshunosligida kompyuter lingvistikasi, tabiiy tilni qayta ishlash, statistik tahlil
masalalariga doir izlanishlarda korpus lingvistikasiga ham to‘xtalib o‘tilgan [Po‘latov,2008]. Kompyuter
lingvistikasi
yo‘nalishlari
monografik
tadqiqot
obyekti
sifatida
o‘rganila
boshladi
[Abdurahmonova,2018; Abjalova,2019]. Kompyuter lingvistikasining yo‘nalishi sifatida shakllangan,
hozirda o‘z taraqqiyot yo‘nalishiga ega bo‘lgan alohida soha hisoblanuvchi korpus lingvistikasi
masalalari keyingi yillarda monografik planda tadqiq etilmoqda[Hamroyeva,2018]. Tezauruslarning
ma'lumotlar bazasi sifatidagi qiymatlari yoritilgan tadqiqotlar ham korpuslar haqida muayyan tasavvur
berishga xizmat qiladi
.
Tezauruslarning tuzilishi, ishlash tamoyillari, kompyuter bazasi sifatidagi
imkoniyatlari, WordNet tezaurus bazasi haqidagi ma’lumotlar ham ilmiy-amaliy ahamiyatga ega.
Korpusning shakllanish davri dunyo miqyosida XX asrning o‘rtalari deb belgilangan. O‘zbek korpus
lingvistikasi hali shakllanib ulgurgani yo‘q. Biz jahon tillarida yaratilgan korpuslarni o‘rganish, ularning
mohiyatini yoritish, amaliy ahamiyatini ko‘rsatish jarayonidamiz. Soha shakllanib ulgurishi uchun esa
tadqiqotlar tizimi kerak bo‘ladi. Bizda korpusga doir tadqiqotlar yaqin davrlardan boshlab amalga
oshirilmoqda. Bunday tadqiqotlarni qo‘llab-quvvatlash, har bir korpus turi, yo‘nalishlari kesimida
izlanishlar tizimini yaratish soha shakllanishi va rivojlanishini ta’minlaydi.
Shuni ta’kidlamoqchimizki, korpus o‘zbek tili, adabiyoti, madaniyati uchun yangilik emas. Korpuslar,
garchi elektron ko‘rinishda bo‘lmasa-da, o‘zbek tili tarixida yaratilgan, ulardan amalda foydalanilgan.
Mahmud Koshg‘ariyning “Devonu lug‘otit turk”asari qadimgi turkiy til, eski turkiy til so‘zlari va shu
so‘zlar ishtirokidagi turli hajmdagi matnlarni qamrab olgan korpus hisoblanadi.
Nizomiy Ganjaviy, Xusrav Dehlaviy, Abdurahmon Jomiy yaratgan fors-tojik tilidagi “Xamsa”lar bilan
Alisher Navoiyning turkiy tildagi “Xamsa”si parallel matnlar korpusining yaqqol namunasidir.
“Xamsa” dostonlarining har biri alohida matnlar korpusidir. Masalan, “Saddi Iskandariy” dostonini 7315
baytli yirik matn korpusi, deyish mumkin.
Ajdodlarimiz gipertekst texnologiyasidan foydalanib, qoliplash san’atini qo‘llaganlar. Qoliplash san’ati
“hikoya ichida hikoya”ning kelishi yoki matn ichida uni izohlovchi, to‘ldiruvchi qo‘shimcha matn
berilishidir. Biz bugun bu yondashuvlarni “intertekstuallik”, “pretsedent birliklar” tarzida g‘arb
adabiyotiga havola qilib, ularning fikriga tayanib kelyapmiz. “Hayrat ul-abror”, “Layli va Majnun” ichida
hikoyatlar keltirilgan. “Sabba’i sayyor” dostoni matnida yettita qo‘shimcha matn keltirilgan. Bu matnlar
ijodkorning g‘oyasini, qarashlarini yoritishda dalil vazifasini bajargan.
Gulxaniyning “Zarbulmasal”i ham gipertekst texnologiyasining yorqin misolidir.
Do'stlaringiz bilan baham: |