ПАРСИНГ – автоматик синтактик разметкалаш дастури. Рус ва инглиз
тилларининг, умуман, корпус лингвистикаси ривожланган
тилларнинг парсинг дастурлари яратилган.
ТАГГИНГ – автоматик морфологик разметкалаш дастури.
Korpus tarkibi, materiali, razmetkaning o‘ziga xos turi.
КОРПУС МАТЕРИАЛИ – корпус такибидаги матнлар йиғиндиси. Мавжуд
корпуслар таркибидаги матнлар нисбатида бадиий адабиёт
ҳиссаси 40 фоизини ташкил этади. Бу таркибга тил
хусусияти бадиий, публицистик услуб оралиғида, жонли
тилни ўрганиш учун анча қулай саналган мемуар асарлар
ҳам киради. Европа тиллари корпусларида бадиий адабиёт
материали 20 фоизни ташкил этади. Замонавий ёзувчилар
асарларининг тил хусусиятини ўрганишга бағишланган 20
дан ортиқ тадқиқот мажуд бўлса-да, улар ҳали тўлалигича
мазкур муаммони ўрганиб бўлди, деб бўлмайди. Чунки
маълум бир ёзувчи асарининг тил хусусиятидаги ўзгаришга
ҳали тилдаги янги ҳодиса деб қараб бўлмайди. Шундай
жараёнларни кузатиш, тадқиқ этишнинг энг қулай воситаси
тил корпусидир. Шу боисдан ҳам бу борада матн мазмуни
муҳим аҳамият касб этади. Корпус маълумотининг
ишонарлилигини таъминловчи омил – унинг репрезентативлиги. Бу хусусиятга корпус ҳамжмининг катталиги,
матнларнинг турли жанрга мансублигини таъминлаш
билан эришиб бўлади. Нутқий фаолият, ҳақиқатан ҳам,
ранг-баранг, турли шаклларда (оғзаки, ёзма, босма ва ҳ.)
намоён бўлади ҳамда нутқий воқеланишларнинг чексизлигини таъминлайди. ХХ асрнинг 60-йилларида яратилган
корпуслар биринчи турга мансуб, улар универсалликка
интилган. Репрезентатив корпус учун танланадиган
матнлар 15 турдаги жанр(регистр)ни қамраб олиши,
улардан 6тадан 80тагача элементар белгиларга кўра
танланиши лозим. Матнлар, одатда, матбуот: репортаж;
матбуот: бош мақола; матбуот: обзор; диний матнлар;
кўникма, машғулот, хобби; илмий-оммабоп адабиёт;
беллетристика,
|
биография,
|
эссе;
|
турли
|
(бошқарув
|
ҳужжатлари,
|
корхона,
|
ташкилот,
|
ишлаб
|
чиқариш
|
ҳисоботи), илмий асар; бадиий адабиёт; мистика, детектив;
илмий проза; саргузашт, мемуар; ишқий романлар; ҳажвий
асарлар каби жанрларда бўлади.
Тузилиши ва таркиби
Мавжуд миллий корпусларни кузатиш асосида корпуснинг тузилиши ва таркибини ўрганар эканмиз, корпус интерфейси, қидирув тизими ва матнлар базаси унинг энг асосий таркибий қисми, деган хулосага келамиз. Рус тили миллий корпуси жойлашган www.ruscorpora.ru сайтининг биринчи саҳифасида корпус ва унинг тузувчилари ҳақида асосий маълумот, ўнг томондаги менюда исталган саҳифага ўтиш имконияти мавжуд. Бу корпус менюси тўрт қисмдан иборат. Бош саҳифа, сайтнинг қидирув ресурси, матн ҳақида унга бириктирилган қўшимча маълумот иловаси, корпус бирликларига изоҳ ёзиш принциплари, охирги блок корпус тузувчилари жамоаси, фойдаланилган дас¬тур, матнларнинг муаллифлик ҳуқуқи ҳақида тўлиқ маълумотлар базасидан иборат.
Албатта, корпуснинг тузилиши ва таркиби тилнинг хусусиятлари, ижтимоий талаб ва бошқа жиҳатларга кўра турлича бўлиши мумкин. Корпуслар учун ягона ва ўзгармас андоза белгиланмайди. Масалан, тузилажак ўзбек тили корпуслари жамиятимиз талабларидан келиб чиққан ҳолда ўзига хос бўлиши мумкин. Корпусдаги миллий сўзи нафақат тилнинг, балки корпус тузилиши ва таркибининг ҳам ўзига хослигини англатади.
10. Korpus lingvistikasining tilshunoslik fanlari orasida tutgan o`rni.
Tilshunoslikda korpus (ikki shakl ko'plikda ruxsat etiladi: korpus va korpus) - tilni o'rganish uchun asos sifatida foydalaniladigan, ma'lum qoidalar asosida tanlangan va qayta ishlangan matnlar to'plami. Ular statistik tahlil va statistik gipotezalarni sinash, ma'lum bir tilda lingvistik qoidalarni tasdiqlash uchun ishlatiladi. Korpusda bitta tilning (bir tilli korpuslar) yoki bir nechta tillarning (ko'p tilli korpuslar) matnlari bo'lishi mumkin. Qiyosiy taqqoslash uchun maxsus yaratilgan ko'p tilli korpuslarga parallel korpuslar deyiladi.
Tilshunoslikda korpus (ikki shakl ko'plikda ruxsat etiladi: korpus va korpus) - tilni o'rganish uchun asos sifatida foydalaniladigan, ma'lum qoidalar asosida tanlangan va qayta ishlangan matnlar to'plami. Ular statistik tahlil va statistik gipotezalarni sinash, ma'lum bir tilda lingvistik qoidalarni tasdiqlash uchun ishlatiladi. Korpusda bitta tilning (bir tilli korpuslar) yoki bir nechta tillarning (ko'p tilli korpuslar) matnlari bo'lishi mumkin. Qiyosiy taqqoslash uchun maxsus yaratilgan ko'p tilli korpuslarga parallel korpuslar deyiladi.
Lingvistik tadqiqotlar uchun korpuslarni yanada foydali qilish uchun ular izohlanadi. Bunga avtomatik morfologik tahlil qilish uchun maxsus dasturlar yordamida bajariladigan morfologik markirovka misol bo'lishi mumkin.
Lingvistik korpus - bu ma'lum printsiplarga muvofiq to'plangan, ma'lum bir standartga muvofiq belgilangan va ixtisoslashgan qidiruv tizimi tomonidan taqdim etilgan matnlar to'plamidir. Ba'zan korpus ("birinchi darajadagi korpus") - bu shunchaki biron bir umumiy xususiyat (til, janr, muallif, matnlarni yaratish davri) bilan birlashtirilgan har qanday matn to'plamidir.
Tarixiy tilshunoslik: tildagi o'zgarishlar va qayta qurish tuzilishi (qiyosiy tarixiy usul). Asosiy narsalardan biri zamonaviy korpus tilshunosligiga ta'sir ko'rsatgan yo'nalishlar, qiyosiy tarixiy tilshunoslikdan kelib chiqqan. Bu ajablanarli emas ayniqsa, tilshunoslar tarixiy tadqiqotlar bilan shug'ullanganligi sababli diktsiyalar har doim matnlarni yoki matnlar to'plamini sifatida ishlatgan asosiy dalillar. XIX asrda ishlab chiqilgan ko'plab texnologiyalar va hozirda qadimiyroqlarni qayta qurish uchun foydalanilmoqda tillar (proto-tillar) yoki tillar o'rtasida aloqalarni o'rnatish.
XIX asrdan beri ishlab chiqilgan ko'plab g'oyalar qo'llanilgan va keyinchalik korpus tilshunosligi tomonidan ishlab chiqilgan. Birinchi binolar orasida kirish elektron shaklda tarixiy binolar ham bo'lgan. Elektron shaklda mavjud bo'lgan juda ko'p sonli matnlarning paydo bo'lishi taxt formati, tilshunoslarga imkoniyat yaratdi lingvistik tahlilda statistik usullarni qo'llash, tadqiqotning yangi usullari va modellarini ishlab chiqish va ishlab chiqish. Se- Bugungi kunda matematik jihatdan murakkab til modellari o'zgarishi mumkin elektron to'siqlar asosida qurilgan.
Grammatika yozish, lug'atlar tuzish va o'rganish til. 19-asr grammatikalari qachon ularning bayonotlarini tasvirlab berdi taniqli mualliflarning asarlaridan olingan choralar. Masalan, G. Pol nemis grammatikasida asarlardan foydalangan ularning har bir pozitsiyasini tasvirlash uchun klassiklar fonologiya, morfologiya va sintaksis. Bugungi kunda gramm kompilyatorlari teak ham korpus usulidan foydalanadi, endi korpuslar kiradi nafaqat klassikalarni, balki boshqa turdagi matnlarni ham tasvirlashga imkon beradi til etarli darajada. Xususan, hozirda katta qiziqish uyg'otmoqda em - gapirish grammatikasi.
Korpus yondashuvining dastlabki misollarini ko'rib chiqamiz leksikografiyadan. 18-asrning o'rtalarida, S. Jonson ijod qilganida lal ingliz tilining izohli lug'ati (Ingliz tili lug'ati) til, 1755), u kitoblardan illyustratsion jumlalarni tanladi, bu so'zlarni qanday qilib misollar bilan ko'rsatish uchun men kotirovkalarni chaqirdim ingliz mualliflari tomonidan ishlatilgan. S. Jonni o'qiyotganda - konteksti ma'noga ega bo'lgan tush bilan belgilangan jumlalar so'zlar ayniqsa tushunarli. Uning yordamchilari belgi qo'yib yozishdi takliflarni qog'ozga yozib qo'ydi va S. Jonson ularni birgalikda tarqatish uchun tarqatdi. lug'atdagi lug'at yozuvlarini sozlash va illyustratsiyasi.
Loyiha Sir Jeyms Myurrey tomonidan (Oksford inglizcha lug'at) til - OED) minglab yordamchilarni va yarim asrni talab qildi chizish.
Sotsiolingvistika: lingvistik xilma-xillik. O'zgarish naya lingvistikasi shevalarni xaritalash va yig'ish bilan boshlandi XIX asrning so'nggi uchdan bir qismidagi dialektal iboralarning taxalluslari. Uning usullari tarixiy davrda qo'llanilgan usullarga o'xshash edi tilshunoslik, muhim o'ziga xos xususiyati bundan mustasno: shevalar korporatsiyalari ma'lumlarga ko'ra muntazam ravishda tuzilgan mezonlar. Bu, ehtimol, hamma narsaning xabarchisi sifatida qaralishi mumkin korpusga nimani kiritish kerakligi haqida hali ham davom etayotgan munozaralar mavjud.
Hozirgi kunda elektron uylar tez-tez ishlatilmoqda lingvistik xilma-xillikni o'rganishda (dialektlar, sotsiolektlar, registrlar). Matematik usullar (masalan, multifaktorial tahlil, ya'ni bir nechta parametrlar bo'yicha tahlil) to'liq bunday ma'lumotlarning mavjudligiga asoslanib.
Do'stlaringiz bilan baham: |