I bob. Milliy korpus o‘zbek tilining elektron lingvistik manbasi sifatida



Download 121,47 Kb.
bet7/12
Sana10.03.2022
Hajmi121,47 Kb.
#488356
1   2   3   4   5   6   7   8   9   ...   12
Bog'liq
KIRISH

Korpusning nima ahamiyati bor? Biz nima uchun korpus yaratamiz? degan savollarga V.Plungyan shunday javob beradi: “Korpus texnik jarayonni tezlashtiruvchi vosita bo‘libgina qolmay, ma’lum til zamonaviy shaklining axborot tizimi, kutilmagan savollarga ham javob bera oladigan, tilshunoslik oldiga avval qo‘yilmagan dolzarb muammoni qo‘ya oladigan tizimdir”24.
Til korpusi yordamida yechimini topadigan muammolardan biri – uning til taraqqiyotini kuzatish, o‘rganishdagi ahamiyatiga, hatto mikrotarixiy tilshunoslik muammosi – qisqa davr ichida (aytaylik, oxirgi o‘n yillikda) tilda bo‘ladigan o‘zgarishlarni tadqiq etish juda qulay. Milliy korpus aniq bir tilning ko‘pqirraliligini, uning uslubi, janrlari, dialektikasi va boshqa jihatlarini o‘zida aks ettiradi. U bir vaqtning o‘zida morfologiya, grammatikaning nozik jihatlarini yoritadigan ilmiy maqsadlarda va yoki tilshunoslikning u yoki bu sohsasida pedagogika ehtiyojlari uchun zarur bo‘lgan tadqiqotlarda qo‘llanilar edi, xolos.
Milliy korpus nima? Korpus bu so‘zlar, so‘z birikmalari, grammatik shakllari ma’nosini ma’lum bir izlash tizimi orqali topishning elektron shakldagi matnlar to‘plamidir. Korpuslarning har xil turlari mavjud. Masalan, bir muallif korpusi25, bir kitob korpusi (jumladan, dastlabki korpuslar “Bibliya” uchun qilingan). Ma’lum bir tilning Milliy korpusi shu til hayotining barcha qirralarini, janrlarini, usullarini, hududiy va ijtimoiy variantlarini o‘zida ifoda etadi. Masalan, o‘zbek tili Milliy korpusi faoliyati internet tizimida amalga qo‘yilsa, 140 mln so‘z ishlatmalaridan iborat shu tildagi barcha turdagi matnlarni o‘zida mujassamlashtira oladi. Kelajakda o‘zbek tili Milliy korpusi o‘zida o‘rtacha 300 mln so‘z ishlatmalarini jamlashi lozim bo‘ladi. Boshqa milliy tillar korpuslari kabi o‘zbek tili Milliy korpusi ham ikkita muhim xususiyatga ega bo‘ladi. Bular: birinchidan, u ancha salobatli va barcha yo‘nalishlar uchun (turli badiiy janrlar: publitsistik, o‘quv, ilmiy, ish yuritish, nutq - so‘zlashuv, shevalar va boshqalar uchun) bir xilda muvofiqlashgan. Bu matnlar o‘z davrida tildagi ta’sir kuchiga qarab proporsional ravishda korpusda jamlangan bo‘ladi. Ikkinchidan, korpus matnlarga xos bo‘lgan alohida jihatlarni qo‘shimcha ma’lumot sifatida o‘zida aks ettiradi (masalan, ma’lum bir jihatdan belgilanishlar va annotatsiyalar). So‘zlar va boshqa birikmalar belgilanishi – korpusning bosh xarakteristikasidir (tasnifidir); U korpusni hozirda internetni to‘ldirib yuborgan boshqa matnlar kolleksiyalari va kutubxona matnlaridan farqlaydi. Matnlar belgilanishi qanchalik boy va turli-tuman bo‘lsa, korpusning ilmiy ahamiyati ham shuncha yuqori bo‘ladi. O‘zbek tili Milliy korpusida jahon lingvistik korpuslari belgilanishlarning quyidgi turlarini e’tiborga olinish kerak bo‘ladi: metamatnli (u matnni muallif qarashi, janri va boshqa xususiyatlari bo‘yicha to‘liq ifodalaydi), morfologik va semantik belgilanishlar (morfologik va semantik belgilanishlar matnni emas, balki alohida bir so‘zni tasniflab beradi).
Milliy korpus nimaga kerak? Milliy korpus, birinchidan, shu tilning leksikasi va grammatikasini o‘rganish uchun zarur. Korpusning boshqa vazifasi esa ko‘rsatib o‘tilgan sohalar bo‘yicha (leksika, grammatika, aksentologiya, til tarixi sohalari bo‘yicha) tegishli ma’lumotlarni yetkazib berishdir. Ilgari mutaxassislar ancha qidiruvdan so‘ng tegishli namunalarni matndan qo‘lda yozib olardilar; bu og‘ir ish bo‘lib, katta hajmdagi materiallarni tahlil qilishga imkon bermasdi. Endilikda o‘rganilayotgan material hajmida va ma’lumotlarni qidirib topishda cheklanishlar bo‘lmaydi. Bu esa tadqiqotchiga juda katta hajmdagi turli-tuman material bilan ishlash imkonini beradi. Korpusning asosiy foydalanuvchilari, albatta, turli yo‘nalishlarda ish olib borayotgan tilshunos tadqiqotchilar hisoblanadi. Lekin shu bilan korpusdan foydalanuvchilar safi cheklanib qolmaydi. Ma’lumki, muayyan bir davrdagi tilga oid ishonchli statistik ma’lumotlar adabiyotshunoslar, tarixchilar va boshqa gumanitar soha vakillarini o‘ziga jalb etib kelgan va shunday bo‘lib qolaveradi. Vaholanki, til(o‘z tili yoki chet tili)ni o‘qitishda ham milliy korpusning ahamiyati katta ekanligi aksioma darajasidadir.
Jahon miqyosida sivilizatsiyaga erishgan mamlakatlarda o‘quv dasturlari va darsliklari korpus asosida ishlab chiqilmoqdaki, bu o‘sha tillarning umrini uzaytiradi, iste’molchilarini yo‘qotmaydi. Chunki korpus yordamida nufuzli mualliflarning aforizmlarini, umumiste’molda bo‘lmagan so‘zlari yoki muayyan grammatik shakllari ma’nolarini o‘quvchi, o‘qituvchi, xorijlik, jurnalist va yozuvchilar bemalol topa oladilar. Masalan, rus tili Milliy korpusi davriy jihatdan XIX asr boshlaridan XXI asrning ikkinchi o‘n yilligini o‘z ichiga oladi: bu davr tilni turli sotsiolingvistik variantlarda–adabiyot, oddiy so‘zlashuv, qisman sheva variantlari nutqida ifodalaydi. Korpusga muhim madaniy ahamiyatga ega bo‘lgan va til taraqqiyoti uchun zarur bo‘lgan badiiy adabiyot(proza, poeziya va b.)ning tarjima qilinmagan original asl nusxalari kiritiladi. Bu borada Milliy korpus faqatgina adabiyot korpusi degan xulosaga kelinmasligi kerak. Adabiyot matnlardan tashqari korpusga katta hajmda yozma tilning boshqa namunalari: memuar, publitsistik, ilmiy-ommabop, ilmiy adabiyotlar, rasmiy chiqishlar, shaxsiy yozishmalar, kundaliklar va hujjatlar ham (hozirda ularning og‘zaki variantlar ham) kiritiladi.
Korpus tilshunoslik fanini rivojlantirishda, zamonaviy globallashuvning turli texnologik, texnik imkoniyatlaridan foydalanish, keng jamoatchilikning tilni saqlash, tizimlashtirish va o‘qitish, shuningdek, har bir sohada davlat tilida aloqa madaniyatini rivojlantirishda muhim rol o‘ynaydi.
Milliy korpusining rivojlanishi va yaratilishining ahamiyati, avvalambor, tilning turmush shakllari, uslublari va janrlarini qamrab olgan darsliklar, ikkinchidan, onlayn rejim har qanday foydalanuvchiga keng qamrovli xizmat ko‘rsatishi mumkinligidan farq qiladi. Milliy korpus nafaqat so‘zni, uning ma’nosini, balki o‘zi gapiradigan va chiqarib tashlagan barcha asarlar ro‘yxatini, misollar, ushbu asarning tabiati va muallifning o‘ziga xos xususiyatlarini taqdim etishi mumkin. Shu bilan birga, ma’lum bir so‘zning tarixiy davrlardan rivojlanish dinamikasi, qaysi imlo, orfografik va boshqalar tilning o‘zgarishi, zamonaviy foydalanish sohasi haqida beqiyos ma’lumot olish mumkin. Ya’ni, yaratilajak o‘zbek tilining milliy korpusi – nafaqat tilshunoslar, balki o‘zbek tilidan foydalanuvchi barcha kishilar: turli soha mutaxassislari, olimlar, siyosatchilar, lug‘at dizaynerlari, tadqiqotchilar va turli maqsadlarda ishlatilishi mumkin bo‘lgan keng qamrovli universal axborot-qidiruv tizimi.
O‘zbek milliy korpusini yaratishning yana bir muhim jihati shundaki, barcha uslublardagi matnlar elektron ko‘rinishda saqlanib qolgan. Bu juda ko‘p matnlarni yig‘ish, markazlashtirish, muayyan maqsadlarda barcha barobar ishlata olishi uchun tayyorlash imkoniyatidir. O‘zbek milliy korpusini yaratish keng qamrovli loyihasi amalga oshirilsa, davlat tilida betakror innovatsion axborot texnologiyalarining yuqori darajasi vujudga keladi va o‘zbek tilini o‘rganuvchilar, o‘zbek tilida ish olib boruvchilar, o‘zbek tilidan doimiy foydalanuvchilar uchun imkoniyatlar eshigi ochiladi.
“O‘zbek tilining milliy korpusi” deb nomlangan keng miqyosli innovatsion ochiq manbali ochiq tizim sifatida mega-loyihaning oddiy boshlang‘ich versiyasi hisoblanadi. Umuman olganda, ideal o‘zbek tilining milliy versiyasida, matnlar bu tilda tilga mutanosib ravishda ishning janri va uslubi bilan qamrab olingan asl nusxaga qaraganda bir necha yuz marta kengroq va chuqurroq mazmun kasb etib, mukammallashib boradi. Odatiy boshlang‘ich versiyada 10 million so‘zni qamrab olish mumkin, ularning chuqurligi unchalik katta bo‘lmay, asosan, zamonaviy o‘zbek matnlarini qamrab oladi. Shunday loyihaning matn bazasi "O‘zbek tilining izohli lug‘ati"dan 5 jildga kiritilgan. 5 jildli lug‘at namunalari turli manbalardan olingan va o‘zbek adabiy tilining barcha janrlaridan iborat bo‘lishi mumkin. Bundan tashqari, 5 mln so‘z badiiy nasrda, she’riyatda, dramada, ilmiy, gumanitar, publitsistik uslubda qo‘llanilgan shakllardan olinadi.
Bunda lingvistik va ekstralingvistik belgilarning dastlabki rivojlanishi amalga oshirildi. Metama’lumotlar / metamatnli belgilash (inglizchada. metadata) – matn yoki matnlar to‘plami haqida ma’lumotga ega bo‘lgan belgilash. Bu korpus yaratilish sharoitlari, muallifning ijtimoiy holati va yoshi xususidagi ma’lumotlar, janr va boshqa narsalar to‘g‘risidagi ma’lumotlardir. U orqali korpusning xotirasida saqlanadigan matnlarning manbalari haqida ma’lumot ta’minlanadi. Shu bilan birga, ushbu loyiha morfologik xususiyatlarni, morfo-semantik belgilar va leksik-semantik belgilarni o‘z ichiga olgan bo‘ladi. Ikkinchisi qo‘lda amalga oshirilganligi sababli (kelajakda yarim avtomatik dastur ishlab chiqiladi), bunday semantik belgili so‘zlar cheklangan bo‘ladi. Ularning ro‘yxati loyihada ko‘rsatiladi. Shunday qilib, leksik-semantik so‘zlar taqdim etilgan ro‘yxatda mavjud bo‘lganligi sababli, qidiruvchi ularni faqat ro‘yxatga kiritish orqali ko‘rishi mumkin. Biz taklif qiladigan mega-loyihaning eng sodda versiyasi – o‘zbek tilining milliy klasteri oson va soddalashtirilgan bo‘lib, kamida 10 million matni o‘z ichiga olgan. Kelgusida ushbu ma’lumotlar kengaytirilib, qayta ishlanadi va takomillashtiriladi, shuningdek, o‘zbek tili milliy korpusining barcha parametrlari menejerida yig‘iladi. Kompyuter dasturi ostida har qanday so‘zni qidirishda ekran avval kichik matnli manbalarda, ya’ni misollar ro‘yxatida paydo bo‘ladi. Bundan tashqari, ekranning ikkinchi sahifasida turli xil bo‘limlarda ushbu so‘z haqida lingvistik ma’lumotlar beriladi.
Demak, korpus matnlarni elektron shaklda to‘plashga asoslangan axborot-ma’lumot tizimi, matnlarning elektron (raqamli) to‘plami; ma’lumot tizimi sifatida foydalanish manbayidir. Aslida, mazkur ta’rif juda umumlashma va nima uchun korpusni milliy deb atash mumkinligi haqidagi savolga javob berishda ochiq. Elektron matnlar to‘plamining har qanday turi ma’lum, masalan, elektron kutubxona, o‘quv resurslari, turli xil ixtisosliklar kutubxonalari, ensiklopediyalar va turli lug‘atlar. Ushbu virtual to‘plamdagi qo‘shimcha matnning asosiy xususiyatini quyidagicha izohlash mumkin:
Kabinetdagi raqamli matnlarni yig‘ish hajmi, odatda, virtual kutubxonalar hajmidan oshib ketadi va qiymat jihatida millionlab milliy inshootlarga, ba’zan milliardlab AQSh dollariga teng bo‘ladi. Hozirgi kunda ma’lum bir mamlakatning tilini tavsiflaydigan eng ko‘zga ko‘ringan korpuslardan biri (masalan, Britaniya milliy korpusi, BN, inglizlarning inglizcha versiyasi uchun, avstraliyalik inglizlardan tashqari) [http: //www. natorp.ox. a.uk, http: //orpus.byu edu /bn/]. Korpus tilning hozirgi yoki hayotining barcha bosqichlarida, yozma ravishda (muvozanat sharoitida, tilni rivojlantirishning turli bosqichlarida yozma va og‘zaki matnlarning barcha turlari bilan) turli xil janrlar, uslublar, tilning hududiy va ijtimoiy variantlari bilan ajralib turadi. Raqamli matnlarning bazasi korpusdagi belgilar yordamida maxsus ishlov beriladi va elektron kutubxonalar bunday ishlov berishdan o‘tmaydi. Ushbu aniq belgi korpusni tilni ishlatish va o‘zgartirish haqida yangi va obyektiv ma’lumot manbasiga aylantiradi. Yorliq (izoh, kod) – matn va uning o‘ziga xos xususiyati haqida aniq lingvistik ma’lumotlarni beradigan korpusning asosiy belgisi. Korpusning shakli tezroq va tobora xilma-xil bo‘lib boraveradi, uning ijtimoiy, ilmiy va o‘quv ahamiyati yuqori bo‘lishi tabiiy. Ba’zi korpuslar kamroq belgilar bilan qoniqqan bo‘lsa-da, ularning ba’zilari doimiy ravishda takomillashtirilmoqda. Masalan, Rossiya Milliy korpusida [www.rusorpora.ru] Metadata – muallifning atributlari, sarlavhasi, janri, yozilgan sanasi va joyi, shu jumladan, ularni tartiblash mezonlari va qo‘lyozma matnlarni berish imkoni kengaymoqda. Morfologik, urg‘u (korpus birligiga qo‘shimcha va boshqa tavsiflovchi xususiyatlar), leksik-semantik, sintaktik belgilar takomillashiga misol bo‘la oladi.
Korpusdagi matn avtomatik yoki yarim avtomatik ravishda yaratilgan lug‘at dasturidan foydalangan hamda maxsus dasturlar bilan to‘ldirilgan holda bir necha bosqichdagi interaktiv dastur bo‘lishi mumkin. Maxsus belgilangan ramz bilan yaratilgan vizuallik, aniqlik milliy til korpusining asosiy xususiyatlaridan biridir. Milliy korpus –yozma/og‘zaki nutqning istalgan shaklida (reklamadan tortib, badiiy adabiyot, statistik ma’lumotlargacha) to‘liq, mutanosib va ​​qiyosiy taqdim etilishini ta’minlaydigan mutlaqo yangi ma’lumotlar manbayi.

Download 121,47 Kb.

Do'stlaringiz bilan baham:
1   2   3   4   5   6   7   8   9   ...   12




Ma'lumotlar bazasi mualliflik huquqi bilan himoyalangan ©hozir.org 2024
ma'muriyatiga murojaat qiling

kiriting | ro'yxatdan o'tish
    Bosh sahifa
юртда тантана
Боғда битган
Бугун юртда
Эшитганлар жилманглар
Эшитмадим деманглар
битган бодомлар
Yangiariq tumani
qitish marakazi
Raqamli texnologiyalar
ilishida muhokamadan
tasdiqqa tavsiya
tavsiya etilgan
iqtisodiyot kafedrasi
steiermarkischen landesregierung
asarlaringizni yuboring
o'zingizning asarlaringizni
Iltimos faqat
faqat o'zingizning
steierm rkischen
landesregierung fachabteilung
rkischen landesregierung
hamshira loyihasi
loyihasi mavsum
faolyatining oqibatlari
asosiy adabiyotlar
fakulteti ahborot
ahborot havfsizligi
havfsizligi kafedrasi
fanidan bo’yicha
fakulteti iqtisodiyot
boshqaruv fakulteti
chiqarishda boshqaruv
ishlab chiqarishda
iqtisodiyot fakultet
multiservis tarmoqlari
fanidan asosiy
Uzbek fanidan
mavzulari potok
asosidagi multiservis
'aliyyil a'ziym
billahil 'aliyyil
illaa billahil
quvvata illaa
falah' deganida
Kompyuter savodxonligi
bo’yicha mustaqil
'alal falah'
Hayya 'alal
'alas soloh
Hayya 'alas
mavsum boyicha


yuklab olish