Hzamatjon RfiHlmqu kompyuter imvistikasi asoslar I иЛК: 519. 711 32. 973 R33



Download 10,2 Mb.
bet77/87
Sana08.02.2022
Hajmi10,2 Mb.
#436695
1   ...   73   74   75   76   77   78   79   80   ...   87
Bog'liq
Kompyuter lingvistikasi. 2011. A.Rahimov

Matnlar korpusi («corpus» - lotincha «tana» degan ma'noni anglatadi) - elektron holda saqlanadigan ma'him til birliklari bo'lib, ular tilshunoslar uchun turli xil muammolarni hal etish uchun tatbiq etishda va turli yo'nalishdagi tadqiqotlar uchun zaruriyatga qarab turli shakllarda tuziladi. Til birliklarining qay tarzda saqlanishiga qarab maxsus dasturlar yordamida har bir kerakli so'z yoki so'z birikmaM uchun darhol uning qo'llanishi bo'yicha misollar topilishi imlo bo'yicha variantlari, sinon'mik qatorlari topilishi mumkin. Matnlar korpusiga oid ilmiy tadoiqotlar salmog'ining ko'payishi natijasida tilshunoslikda korpus lingvistikasi yo'nalishi shakllandi.
Kompyuterda yaratilgan birinchi matnlar korpusi Braun korpusi (БК ing­lizcha Brown Corpus, ВС) hisoblanadi, u 19bl-yilda Braun universitetida yaratil­gan, har biri 2000 so'zli 500 ta matn fragmentini o'z ichiga oladi. 1970-yillarda I mln so'zni o'z ichiga olgan matnlar korpusi asosida rus tilining chastotali lug'ati yaratildi. 1980-yillarda Shvetsiyaning Upsala universitetida ham rus tilida matnlar korpusi yaratildi. Buyuk Britaniyada Ingliz tili Banki (Bank of English) hamda Britaniya Milliv Korpusi (British National Corpus, BNC), Rossiyada Rus tilining mashina fondi (Машинный фонд pjccKoro языка) hamda Rus tilining viilliy korpu­si (I laniLOiia.iMibifi корпус ^русского языка) loyihalari ishlab chiqildi. Masalan, Rus tilining .vnlli) korpusi hajmi hozirgi kunda 149 mln so'zdan iborat. Keymgi 5 illarda Internet tizimining rivojlanishi virtual matnlar korpusining yuzaga keli­shiga olib keldi. Ya'ni Internetdagi qidiriv savtlari. elektron kutubxonalar, virtual ensiklopediyalar korpus vazifasini bajarmoqda. Korpusning janri va tematik rang- barangligi lnternetdan foydalanuvchming qiziqishlariga bog liq. Masalan, lhn fan doirasida Wikipedia katta hajmdagi matnlar korpusi sifatida ishlatilmoqda

.Matnning statistik tahlili - tilni ehtimollik belgilariga ko' ra tahlil qilish, til hodi- salarini statistik xarakteristikalari asosida baholash demakdir. Til birligimng gap- da yoki matnda qo'llanish chastotasi (sur ati) ehtimollik deyiladi. Til hodisalari haqidagi haqiqatlar lingvostatisti* tadqiqotlar yordamida aniqlanadi. Masalan o'zbek tili uchun qaysi bo'g'in strukturasi tipik ekanligini, gap modellaridan qay- si biri eng asosiy konstruksiya ckanl'gini, bosh kelishikdagi otlarmng asosan qay- si gap boiag; vazifasida kelisiii ii, tanlangan matnda so'z turkumlarining qay darpjada ishlatilishini aniqlash uchun lingvostatistik tahlillarga ehtiyoj seziladi.
Matnning statistik tahliii matn atributsiyasi muammosiga ham oydinlik kiri- tishda muhin tadqiqot usuli hisoblanadi. Ayniqsa, badiiy matnlarning statistik tahlil' naf'^asida o'sha matn muallifi ham aniqlanmoqda. Bunda matnda tez-tez ii hlatuuvchi til birliklari (otlar sifatlar, kalit so'zlar, fe'llar, grammatik shakllar, jumla qurnishi, bir so'z bilan aytganda, yozuvchimng idiostilini - o'ziga xos uslu- bini ko'rsatuvchi vositalar) lingvostatistik tahlil yordamida aniqlanadi Turli matn- lardan olingan dali'larnng qiyosiy tahliii bizga o'sha matnning mazmun-mundari- jasi.n, matn tuzilgan davrni dah.larni argumentlash xarakterini va hatto muallif- likni an.qlashga imkon beradi Badiiy asarlarning sujet qurilishiga, matn struk­turasiga kvantitativ metodlarning tatbiq etilishi natijasida F.Dostoyevskiy, L.Tolstoy. M Sholoxov kabi yozuvchilarning matnlari atributsiyasi amalga oshiril- gan. Keyingi paytlarda anonim (muallili nomalum) va psevdonim (soxta muallif- li) matnlarning amqlanidii yuzasidan ham tadqiqotlar amalga oshinlmoqda.

Download 10,2 Mb.

Do'stlaringiz bilan baham:
1   ...   73   74   75   76   77   78   79   80   ...   87




Ma'lumotlar bazasi mualliflik huquqi bilan himoyalangan ©hozir.org 2024
ma'muriyatiga murojaat qiling

kiriting | ro'yxatdan o'tish
    Bosh sahifa
юртда тантана
Боғда битган
Бугун юртда
Эшитганлар жилманглар
Эшитмадим деманглар
битган бодомлар
Yangiariq tumani
qitish marakazi
Raqamli texnologiyalar
ilishida muhokamadan
tasdiqqa tavsiya
tavsiya etilgan
iqtisodiyot kafedrasi
steiermarkischen landesregierung
asarlaringizni yuboring
o'zingizning asarlaringizni
Iltimos faqat
faqat o'zingizning
steierm rkischen
landesregierung fachabteilung
rkischen landesregierung
hamshira loyihasi
loyihasi mavsum
faolyatining oqibatlari
asosiy adabiyotlar
fakulteti ahborot
ahborot havfsizligi
havfsizligi kafedrasi
fanidan bo’yicha
fakulteti iqtisodiyot
boshqaruv fakulteti
chiqarishda boshqaruv
ishlab chiqarishda
iqtisodiyot fakultet
multiservis tarmoqlari
fanidan asosiy
Uzbek fanidan
mavzulari potok
asosidagi multiservis
'aliyyil a'ziym
billahil 'aliyyil
illaa billahil
quvvata illaa
falah' deganida
Kompyuter savodxonligi
bo’yicha mustaqil
'alal falah'
Hayya 'alal
'alas soloh
Hayya 'alas
mavsum boyicha


yuklab olish