Brown sorpus,
VS) hisoblanadi, u 1961
yilda Braun universitetida yaratilgan, har biri 2000 so‗zli 500 ta matn
fragmentini o‗z ichiga oladi. Braun korpusi (The Brown Corpus) matnlari
AQShda nashr etilgan jurnallardan, amerika kitoblari, gazetalaridan
olingan. Korpus mualliflari U.Frensis va G.Kucherlar uni dastlabki
statistik ishlov berilgan katta hajmdagi materiallar miqdori: har xil statistik
90
taqsimotga asoslangan chastotali va alfavit-chastotali lug‗at sifatida
shakllantirdilar.
Braun korpusini yaratishdan maqsad – ingliz tilidagi yozma janrlarini
o‗rganish va qiyoslashdan iborat. Tuzuvchilar, birinchi navbatda, masalani
hal qilish nuqtai nazaridan yondashib, matnni saralash va tuzish prinsipiga
amal qildilar. Bir tomondan: korpus statistik protsedura asosiga qurildi,
ikkinchi tomondan, statistika korpus mualliflarining professional intuitsiya
bazasiga asoslangan erkin qarorlari bilan belgilandi. Mazkur murakkab
jarayonda maksimal darajada ob'ektivlikka erishish uchun maksimal
formallashgan, shaffof protsedurani tekshirish va nazorat talab qilinar edi.
Keyinchalik yevropalik tadqiqotchilar shu prinsip asosida 1961 yilda
Buyuk Britaniyada birinchi marta e'lon qilingan matnlar korpusini
tuzishdi: 15 xil janr (registr), 2000 so‗zli (so‗zshaklli) 5000ta matn dan
iborat. U ingliz tilining britaniya variantiga oid 1 mln. so‗zni qamrab oldi,
uni britaniya va ikki norvegiya universiteti nomi bilan ―Lankaster-Oslo-
Bergen‖ yoki qisqacha LOB korpusi (The Lancaster-Oslo-Bergen Corpus)
deb atashdi.
Braun tipida yaratilgan boshqa korpuslar ham tadqiqotchilar uchun
muhim ahamiyat kasb etdi. 1963- yilda AQShda Braun universiteti (Brown
University)da The Brown Standard Corpus of American English korpusi
yaratildi. Mazkur korpus lingvistika sohasida yaratilgan bo‗lib, lingvistik
tavsif va tahlillarga xizmat qiladi.
Birinchilardan bo‗lib yaratilgan ikki katta korpus ingliz tilining yozma
amerika va britaniya variantida yaratilgan bo‗lib, bu korpuslar hozirgi
kunda ham ahamiyatini yo‗qotgani yo‗q, ingliz tili bo‗yicha bir qator
tadqiqotlarga asos bo‗lib kelmoqda.
Bu korpuslar yaratilganidan keyingi o‗n yillikda kompyuter
arzonlashdi, qudratliroq kompyuter sinflari yuzaga keldi, matnlarni
jamlashning klaviatura usulidan tashqari skaner variantlari shakllandi. Bu
imkoniyatlar korpus yaratish jarayonini yengillatdi, korpuslarning milliard
so‗z hajmidagi tiplari yuzaga keldi
1
.
1970-yillarda 1 mln so‗zni o‗z ichiga olgan matnlar korpusi asosida
rus tilining chastotali lug‗ati yaratildi. 1980-yillarda Shvetsiyaning Upsala
universitetida ham rus tilida matnlar korpusi yaratildi. Keyinchaiik
kompyuter leksikografiyasining rivojlanishi natijasida katta hajmli matnlar
korpusiga ehtiyoj tug‗ildi. Ya‘ni 1 mlnta so‗z elektron lug‗atlar bazasi
uchun yetarli emas. Shu asosda yirik hajmli matnlar korpusi yaratila
boshladi. Ko‗pgina mamlakatlarda bunday korpuslar XX asrning 80-
1
Захаров В.П., Богданова С.Ю.
Корпусная лингвистика. -Иркутск: ИГЛУ, 2011. –С.16-17.
91
yillaridan boshlab tuzila boshladi. Ular turli maqsad va vazifalarga xizmat
qiladi. Buyuk Britaniyada Ingliz tili Banki (Bank of English) hamda
Britaniya Milliy Korpusi (British National Corpus BNC), Rossiyada Rus
tilining mashina fondi (Машинный фонд русского языка) hamda Rus
tilining Milliy Korpusi (Националный корпус русского языка) loyihalari
ishlab chiqildi.
1
Masalan, Rus tilining milliy korpusi hajmi hozirgi kunda
149 mln so‗zdan iborat. Keyingi yillarda Internet tizimining rivojlanishi
virtual matnlar korpusining yuzaga kelishiga olib keldi. Internetdagi
qidiriv saytlari, elektron kutubxonalar, virtual ensiklopediyalar korpus
vazifasini bajarmoqda. Korpusning janri va tematik rang-barangligi
internetdan foydalanuvchining qiziqishlariga bog‗liq. Masalan, ilm-fan
doirasida ―Wikipedia‖ katta hajmdagi matnlar korpusi sifatida
foydalanilmoqda.
2
Korpus lingvistikasida parallel matnlar korpusi ham muhim ahamiyat
kasb etadi. Parallel matnlar korpusi esa, o‗z navbatida, badiiy asar,
qo‗llanma, ommaviy axborot vositalari, turli xil hujjatlarning ikki yoki
undan ko‗p tillardagi elektron holdagi ko‗rinishlaridir. Masalan, Yevropa
Ittifoqi o‗zining barcha qonun va hujjatlarini ingliz, fransuz, nemis, ispan
va italyan tillarida nashr qiladi hamda ular internet tizimiga ochiq arxiv
sifatida qo‗yiladi. Bunday korpuslarning afzalligi shundaki, ular
yordamida nafaqat biron bir so‗z yoki jumlaning, balki butun boshli
matnlarning turli tillardagi variantlarini bilish imkoniyati mavjud. Xuddi
mana shu imkoniyat tufayli maxsus konkordanser dasturlar ishlab chiqish
orqali turli xil ixtisoslik lug‗atlari tuzish imkoniyati tug‗iladi. Ushbu
korpuslar kompyuter leksikografiyasi uchun amaliy hamiyat kasb etadi.
―Kompyuter lingvistikasi‖ masalalariga bag‗ishlangan maqolalar
seriyasida korpus lingvistikasiga oid ma‘lumotlar ham keltirilgan
3
. Rus
tilshunosligida korpus, uning turlari, o‗ziga xos xususiyati, korpusning
ijtimoiy ahamiyati, korpus tuzish tamoyillari borasida tadqiqot olib
borilgan.
O‗zbek tilshunosligida kompyuter lingvistikasi, tabiiy tilni qayta
ishlash,
statistik
tahlil
masalalariga
doir
izlanishlarda
korpus
lingvistikasiga ham to‗xtalib o‗tilgan
4
.
Kompyuter
lingvistikasi
1
http:www.corpus.leeds.ac.uk/list.html
2
http://www.wikipedia.org/wiki/corpus linguistics
3
Новое в зарубежной лингвистике. Вып: XXIV. Компьютерная лингвистика. –M., 1989.
4
A.Po‗latov, S.Muhamedova. Kompyuter lingvistikasi. –Т.,2008; B.Yo‗ldoshev. Kompyuter
lingvistikasi. –Т.,2009; A.Po‗latov. Kompyuter lingvistikasi. –Т., 2011; A.Rahimov. Kompyuter
lingvistikasi asoslari. –Т.,2011; F.Qurbonova. Kompyuter lug‗atlari:
tezaurus. –Т.,2014;
L.Abduhamidova ―Tilshunoslikning yangi yo‗nalishi: kompyuter lingvistikasi. –Т.,2015.
92
yo‗nalishlari monografik tadqiqot obyekti sifatida o‗rganila boshladi
1
.
Kompyuter lingvistikasining yo‗nalishi sifatida shakllangan, hozirda o‗z
taraqqiyot yo‗nalishiga ega bo‗lgan alohida soha hisoblanuvchi korpus
lingvistikasi masalalari keyingi yillarda monografik planda tadqiq
etilmoqda
2
. Tezauruslarning ma'lumotlar bazasi sifatidagi qiymatlari
yoritilgan tadqiqotlar ham korpuslar haqida muayyan tasavvur berishga
xizmat qiladi
3
. Tezauruslarning tuzilishi, ishlash tamoyillari, kompyuter
bazasi sifatidagi imkoniyatlari, WordNet tezaurus bazasi haqidagi
ma'lumotlar ham ilmiy-amaliy ahamiyatga ega
4
.
M.V.Kopotev, A.Mustayokilar hozirgi tilshunoslikda korpus asosidagi
yondashuvning keng qo‗llanishi ahamiyatini bir qator misollar orqali
ko‗rsatib berishgan: 1.Korpuslarning grammatika va leksikaga oid
tadqiqotlarda keng qo‗llanishi hozirgi tadqiqot amaliyotida odatiy holga
aylandi. 2.Chastotaga asoslangan ro‗yxatlar va kalit so‗zlar hozirgi
elektron korpuslar tuzilishidan ancha muddat oldin yaratilgan va faol
qo‗llangan. 3. Kollokatsiylar (ya'ni leksemalar birikmasi) tadqiqi hozirda
korpus tadqiqotlarining eng ommabop mavzularidan biri bo‗lib qolmoqda.
4. Me'yor /uzus tadqiqi. Me'yor tadqiqi odatda korpus tilshunoslarining
vazifalariga kirmasa-da, keng jamoatchilikni qiynaydigan ko‗pgina keskin
masalalar sub'ekti baho asosida emas, balki statistik jihatdan ko‗p
miqdorni tashkil qiladigan materiallar mazmuni bilan hal qilinadi.
5.Korpus metodlari shakllanish davridanoq sotsiolingvistik tadqiqotlarda
faol qo‗llanib kelmoqda. 6. Og‗zaki nutq korpusini yaratish va o‗rganish
korpus lingvistikasining alohida va faol ishlab chiqilgan sohasiga aylandi.
7.Korpus lingvistikasi shakllanish davridanoq xorijiy auditoriyada til
o‗qitish bilan chambarchas bog‗liq bo‗lib keladi. 8. Xato turlarini
tasniflaydigan va ta'lim jarayonida ularga e'tibor qaratadigan o‗quvchilar
matni korpusini yaratish yangi soha hisoblanadi. 9.Turli pedagogik
vazifalar bilan chambarchas bog‗liq va aynan lingvistik ahamiyatga ega
bo‗lgan vazifa ko‗p tilli parallel korpuslarni yaratishdir. 10. Bir avtorga
1
Абдураҳмонова Н.З. Инглизча матнларни ўзбек тилига таржима қилиш дастурининг
лингвистик таъминоти (Содда гаплар мисолида): филол. фан. бўйича фалсафа доктори
(PhD)... дисс. автореф. –Т., 2018; Aбжалова M. Ўзбек тилидаги матнларни таҳрир ва таҳлил
қилувчи дастурнинг лингвистик модуллари (расмий ва илмий услубдаги матнлар таҳрири
дастури учун). Филол. фан. фалс. д-ри (PhD) дисс. –Т., 2019.
2
Ҳамроева Ш.М. Корпус лингвистикаси атамаларининг қисқача изоҳли луғати. – Т.:
«Камалак» нашриѐти. – 47 б.; А.Эшмуминов.Ўзбек тили миллий корпусининг синоним
сўзлар базаси. –Қарши, 2019.
3
Do'stlaringiz bilan baham: |