Samarqand davlat universiteti Filologiya fa’kulteti 206-guruh talabasi Rasulova Fazilatning ning “Kompyuter lingvistikasi” fanidan mustaqil ta’lim taqdimoti
Mavzu: KORPUS LINGVISTIKASI
Reja:
1. Korpus lingvistikasining shakllanishi.
2. Korpus lingvistikasining taraqqiyoti.
3. Ikkinchi avlod korpuslari.
4. Korpus lingvistikasining atamalari va tasnifi.
Korpus – ma’lum maqsadda yig’ilgan matnlar majmuini tashkil etuvchi til birliklari yig’indisi, tabiiy tildagi electron shaklda saqlanadigan yozma va og’zaki, kompyuterlashtirilgan qidiruv tizimiga dasturiy taminot asosida joylashtirilgan on-line yoki off-line tizimda ishlaydigan matnlar jamlanmasi. Til korpusi electron
Til korpusi electron kutubxonadan farqli olaroq, tilni organish uchun zaruriy, foydali va qiziqarli matnlarni toplashni nazarda tutadi. Korpusni electron kutubxonadan ajratib turuvchi birinchi omil undagi matnnning xususiyati va qoshimcha malumotlar bilan boyitilganligi hisoblanadi va bu belgi korpusning alohida qismi korpus birliklariga yozilgan izohni tashkil etadi.
Manbalarda korsatilishicha, Ishonarli lingvistik malumotlar katta massivli matnlar majmuasidangina olinishi mumkin degan qarash otgan asrning 60-yillarida R.G.Piatrovskiy tomonidan aytilgan. Aslida, korpus sohasidagi maqsadli tadqiqotlar 40-yillarda (Blumfild, Frays va Bondjers) boshlandi. Lekin 50-60-yillarda Noam Chomskiy konsepsiyasi (xomskianskaya lingvistika, chomskyan linguistics) ustunlik qila boshladi. Ushbu yonalish nutqiy qollanishni (performance, Sossyurning fikricha, nutq)ni emas, tilni organish (competence, Sossyurning fikricha, til) lozim, degan goyani ilgari surardi. Chunki tilda nutqiy qollanish son-sanoqsiz, ularni organish befoyda. Til mohiyati, imkoniyatini ifodalaydigan qonuniyatlar esa sanoqli, demak, ularni tadqiq etish mumkin, maqsadga muvofiq, deb hisoblangan
korpus lingvistikasining predmeti til meyori emas, odatiy, rasmga aylangan holat hisoblanadi. Shved olimi Otto Espersen birinchilardan bolib preskreptiv (normativ) grammatikadan deskriptiv (tafsifiy) grammatikaga otish haqidagi nazariyani elon qildi. U real til materialini organishda suniy ravishda tuzilgan misollardan voz kechdi. Asosiy ishi Modern English Grammar on Historical Prinsiples (1909-1949) uchun maxsus misollar manbasini tanladi. Bu manbaning royxati 40 sahifadan iborat, zamonaviy reprezentativ, ishonchli korpus namunasidir
Zamonaviy korpus u yoki bu til resursini qay darajada ifodalashiga, sifati, miqdoriga qarab matnlarning oddiy elektron kolleksiyasi yoki chuqur annotasiyalangan korpus kabi turga bolinadi. Zamonaviy tilshunoslik kop hollarda matnni elektron shaklda ishlatish ehtiyojini sezadi, bu esa avtomatik ravishda korpusning birinchi avlodini tashkil etadi. Shuning uchun eski korpuslar olmaydi, istemoldan chiqib ketmaydi, balki toldirilib, chuqurlashib, annotasiyaga (turli lingvistik tahlil) ega bolib boraveradi.
Kompyuter korpuslari yaratishning asosiy davrlari quyidagicha tasniflanadi:
I. 1960 yillar: Braun korpusi (AQSh) − 1 million so’z.
II. 1970 yillar: LOB korpusi (Buyuk Britaniya, Norvegiya) − 1 million so’z.
III. 1980 yillar:
1. Rus tilining mashina fondi (Mashinnыy Fond russkogo yazыka).
2. Rus tilining Upsalla korpusi (Uppsalskiy korpus russkogo yazыka. Shvesiya) − 1 million so’z.
IV. 1990 yillar:
1. British National Corpus (Britaniya milliy korpusi) –100 million so’z.
2. Milliy korpuslar (venger, italyan, xorvat, chex, yapon) 100 million so’z.
3. Ingliz tili banki (The Bank of English, Birmingham (Collins Cobuild) − 600 million so’z.
V. 2000 yillar:
1. American National Corpus (Amerika milliy korpusi) – 100 million so’z.
2. Zamonaviy Amerikancha ingliz tili korpusi (Corpus of Contemporary American English) − 400 million so’z.
3. Nasionalnыy korpus russkogo yazыka (Rus tili milliy korpusi) − 140 million so’z.
4. Gigaword corpora: ingliz, arab, xitoy tillari − 2 milliard so’z.
5. Oxford English corpus (Oksford ingliz korpusi) − 2 milliard so’z.
Xullas, korpusning paydo bo’lishi, rivojlanishi ikki bosqichdan iborat kompyuter asrigacha bolgan, kompyuter asri korpuslari davri. Birinchi davr korpusi kartotekalar toplamidan iborat, garchi bugungi korpus korinishida bolmasa-da, lingvistik tadqiqot uchun material vazifasini otagan. Kompyuter asrida esa ular elektron shaklga kirgan va dasturlashtirilgan.
E’TIBORINGIZ UCHUN RAHMAT E’TIBORINGIZ UCHUN RAHMAT
Do'stlaringiz bilan baham: |