I bob. Milliy korpus o‘zbek tilining elektron lingvistik manbasi sifatida



Download 121,47 Kb.
bet9/12
Sana10.03.2022
Hajmi121,47 Kb.
#488356
1   ...   4   5   6   7   8   9   10   11   12
Bog'liq
KIRISH

Katta massivli matn ma’lumoti. Matnni to‘liq ifodalaydigan belgilarni qamrab olgan: muallif nomi, uning jinsi, tug‘ilgan sanasi, matn sarlavhasi, matn yaratilish vaqti, so‘zlar hajmi, tematikasi, matn turi, uslubi, qo‘llanilish sohasi va sh.k.
Leksik ma’lumot. Leksik ma’lumot quyidagi belgilarni o‘z ichiga olgan: alohida so‘zlarni ifodalaydi, ya’ni matnlar korpusida aniq bir joyda so‘z shaklini ishlata oladi. Bunga quyidagilar kiradi:
1. Morfologik belgilar:

  • leksema (so‘z shakli);

  • leksemaning grammatik belgilari (so‘z turkumi, jonli narsalar, o‘tkinchi hodisalar);

  • so‘z shaklning grammatik belgilari (son, kelishik, mayl, vaqt, shaxs).

2. Semantik belgilari:
semantik razryad, taksonomik sinf, mereologiya, baho, kauzatsiya, so‘z yasovchi aloqalar va b.27
Korpusda matn abzaslar ketma-ketligidan iborat bo‘lsa, abzaslar gaplardan, gaplar esa so‘zlardan iborat. Bunda tahlilning asosiy birligi so‘z deb olinsa, matn birligi esa gap deb qabul qilinadi. Korpusda qidiruv tizimi orqali aniq bir belgiga doir so‘z va so‘z birikmalarni faqat mazkur gapga oid topa olish imkoni mavjud. Qidiruv natijasi gaplar ro‘yxati hisoblanib, unda topilgan so‘zlar ajratilgan shrift orqali ifodalanadi. Kerak bo‘lgan paytda qidiruv matni abzas chegarasigacha kengaytirilishi mumkin, lekin undan ortiq emas.
Shunday qilib, korpusda asosiy strukturali birliklarni ajratish mumkin: so‘z, gap, abzas, matn. Bunda matnda strukturali bo‘linish (qismlar, boblar, bo‘limlar)ni ifodalaydigan, abzasdan tashqarida bo‘lgan birliklar va gapning sintaktik strukturasi (klauz, guruhlar)ni ifodalaydigan birliklar ishlatilmaydi. Ma’lumot faqat strukturaning minimal va maksimal birliklariga yoziladi: so‘zga va butun bir matnga. Sintaktik belgilar (razmetka)ning ba’zi bir elementlari turg‘un so‘z birikmalar (iboralar)ni belgilash uchun qo‘llaniladi28.
Belgining hajmi va mukammalligi jihatidan korpus ikkita teng bo‘lmagan qismga bo‘linadi. Korpusning asosiy qismini matnlar tashkil etib, unda har bir so‘zga avtomatik ravishda turli-tuman morfologik tahlillar yozib qo‘yiladi. Korpusning ma’lum bir kismida mukammalroq belgi (razmetka) o‘z aksini topgan, aniqrog‘i: morfologik omonimiya qo‘lda bajarilib olib tashlangan, so‘zlarga semantik belgilar yozib qo‘yilgan, shuningdek, so‘zlarga urg‘u qo‘yib chiqilgan. Korpusning mazkur qismi aniq ma’lumotni beradi va lingvistik korpuslar uchun etalon vazifasini o‘tashi mumkin. Metamatnli belgi (razmetka) korpusning ikkala qismida bir xil xarakterga ega bo‘ladi29.
Hozirgi vaqtda korpus matnlarini qayta ishlash uchun zarur bo‘lgan dasturlar yetarli darajada mavjud. Masalan, «Ekspert lingvistik tizim» korpus-menejer tizimi shunday dasturiy tizimlardandir. Uning asosiy imkoniyatlari kuyidagilardan iboratdir:

  • tanlangan matnlar asosida leksema va so‘zshakllarining takrorlanishi lug‘atini yaratish imkoniyati;

  • olingan lug‘atning har qanday birligi uchun matnni ko‘rib chiqish imkoniyati;

  • grafikli so‘zni bo‘g‘inga ajratish;

  • so‘z zaxiralarini saralash;

  • bir vaqtning o‘zida cheklanmagan fayllarni qayta ishlash imkoniyati;

  • tashqi belgilarga ega bo‘lgan matnlar korpuslarini yaratish imkoniyati;

  • yaratiladigan matnlar korpuslari hamda korpusga kiruvchi alohida matnlar uchun statistik ma’lumotlarni hisoblab chiqish imkoniyati;

dastlabki matnlar bilan txt, doc va rtf formatda ishlash, kodlashtirishni avtomatik tarzda belgilash imkoniyati30.
Shunday qilib aniq bo‘ladiki, dastur – konkordanser yozish har qanday korpus yaratishning asosini tashkil etadi. Bu korpusning juda katta hajmdagi materiallarni tahlil etishga mo‘ljallangan elektron shakllar va keng ko‘lamdagi statistik materiallarni yig‘ishga yo‘naltirilgan o‘ziga xos jihatlari bilan bog‘liq.
Bu dasturning maqsadi o‘zbek tili Milliy korpusi uchun konkordans tuzishdan iborat bo‘ladi31. Korpusga kirish mezoni sifatida foydalanuvchilardan ma’lum bir so‘zshakllarida va korpusning barcha matnlari bo‘yicha qidiruv o‘tkazilib quyidagilar taqdim qilinishi talab etiladi:

    • so‘zshakllarining hujjatli takrorlanishi;

    • janrlar bo‘yicha takrorlanish;

    • so‘zshaklning konteksdagi o‘zgarishi.

Korpus strukturasi32 nima? Bu dastur material tahlili uchun yaratilgan. U fayllarda joylashgan korpus matnlari bo‘lib, to‘rtta janr (badiiy proza, publitsistika, ilmiy adabiyotlar – tahlillar – tafsilotlar, ilmiy ommabop va dramatik adabiyotlar) kategoriyalariga mos kelgan holda taqsimlangan. Bunda qo‘shimcha ravishda har bir guruh ichida fayllar korpusga qo‘shilgan yil hisobi bo‘yicha saralangan. Korpus ≈4 M bayt egallaydi va ≈ 1 mln so‘z ifodalarini o‘zida mujassamlashtiradi33.
Korpus matnlari urg‘u belgilariga ega bo‘ladi va so‘zlar orasidagi farqni ajratish uchun imkon yaratadi. Masalan, atlas (urg‘u ikkinchi bo‘g‘inda)– mato, material; atlas (urg‘u birinchi bo‘g‘inda) –xaritalar albomi; olma (urg‘u ikkinchi bo‘g‘inda) – meva, olma (urg‘u birinchi bo‘g‘inda) – buyruq fe’li (...birovning kitobini so‘ramay olma); yangi (urg‘u ikkinchi bo‘g‘inda) – sifat (yangi ko‘ylak), yangi (urg‘u birinchi bo‘g‘inda) – ravish (yangi keldi, ya’ni hozirgina keldi).
Shunga mos ravishda ushbu so‘zlar quyidagi ko‘rinishda bo‘ladi: atlas (urg‘u ikkinchi bo‘g‘inda) – atlas (urg‘u birinchi bo‘g‘inda), olma (urg‘u ikkinchi bo‘g‘inda) – olma (urg‘u birinchi bo‘g‘inda), yangi (urg‘u ikkinchi bo‘g‘inda) – yangi (urg‘u birinchi bo‘g‘inda).
Shu bilan birga «tarkibiy so‘zlar» (murakkab so‘z shakllari) degan tushuncha kiritiladiki, unda murakkab so‘z shaklining bir qismini ifodalash uchun qo‘llaniladigan ramz « », ya’ni «ekvivalent so‘zlarga mos kelish» tushuniladi.

Download 121,47 Kb.

Do'stlaringiz bilan baham:
1   ...   4   5   6   7   8   9   10   11   12




Ma'lumotlar bazasi mualliflik huquqi bilan himoyalangan ©hozir.org 2024
ma'muriyatiga murojaat qiling

kiriting | ro'yxatdan o'tish
    Bosh sahifa
юртда тантана
Боғда битган
Бугун юртда
Эшитганлар жилманглар
Эшитмадим деманглар
битган бодомлар
Yangiariq tumani
qitish marakazi
Raqamli texnologiyalar
ilishida muhokamadan
tasdiqqa tavsiya
tavsiya etilgan
iqtisodiyot kafedrasi
steiermarkischen landesregierung
asarlaringizni yuboring
o'zingizning asarlaringizni
Iltimos faqat
faqat o'zingizning
steierm rkischen
landesregierung fachabteilung
rkischen landesregierung
hamshira loyihasi
loyihasi mavsum
faolyatining oqibatlari
asosiy adabiyotlar
fakulteti ahborot
ahborot havfsizligi
havfsizligi kafedrasi
fanidan bo’yicha
fakulteti iqtisodiyot
boshqaruv fakulteti
chiqarishda boshqaruv
ishlab chiqarishda
iqtisodiyot fakultet
multiservis tarmoqlari
fanidan asosiy
Uzbek fanidan
mavzulari potok
asosidagi multiservis
'aliyyil a'ziym
billahil 'aliyyil
illaa billahil
quvvata illaa
falah' deganida
Kompyuter savodxonligi
bo’yicha mustaqil
'alal falah'
Hayya 'alal
'alas soloh
Hayya 'alas
mavsum boyicha


yuklab olish