Katta massivli matn ma’lumoti. Matnni to‘liq ifodalaydigan belgilarni qamrab olgan: muallif nomi, uning jinsi, tug‘ilgan sanasi, matn sarlavhasi, matn yaratilish vaqti, so‘zlar hajmi, tematikasi, matn turi, uslubi, qo‘llanilish sohasi va sh.k.
Leksik ma’lumot. Leksik ma’lumot quyidagi belgilarni o‘z ichiga olgan: alohida so‘zlarni ifodalaydi, ya’ni matnlar korpusida aniq bir joyda so‘z shaklini ishlata oladi. Bunga quyidagilar kiradi:
1. Morfologik belgilar:
leksema (so‘z shakli);
leksemaning grammatik belgilari (so‘z turkumi, jonli narsalar, o‘tkinchi hodisalar);
so‘z shaklning grammatik belgilari (son, kelishik, mayl, vaqt, shaxs).
2. Semantik belgilari:
semantik razryad, taksonomik sinf, mereologiya, baho, kauzatsiya, so‘z yasovchi aloqalar va b.27
Korpusda matn abzaslar ketma-ketligidan iborat bo‘lsa, abzaslar gaplardan, gaplar esa so‘zlardan iborat. Bunda tahlilning asosiy birligi so‘z deb olinsa, matn birligi esa gap deb qabul qilinadi. Korpusda qidiruv tizimi orqali aniq bir belgiga doir so‘z va so‘z birikmalarni faqat mazkur gapga oid topa olish imkoni mavjud. Qidiruv natijasi gaplar ro‘yxati hisoblanib, unda topilgan so‘zlar ajratilgan shrift orqali ifodalanadi. Kerak bo‘lgan paytda qidiruv matni abzas chegarasigacha kengaytirilishi mumkin, lekin undan ortiq emas.
Shunday qilib, korpusda asosiy strukturali birliklarni ajratish mumkin: so‘z, gap, abzas, matn. Bunda matnda strukturali bo‘linish (qismlar, boblar, bo‘limlar)ni ifodalaydigan, abzasdan tashqarida bo‘lgan birliklar va gapning sintaktik strukturasi (klauz, guruhlar)ni ifodalaydigan birliklar ishlatilmaydi. Ma’lumot faqat strukturaning minimal va maksimal birliklariga yoziladi: so‘zga va butun bir matnga. Sintaktik belgilar (razmetka)ning ba’zi bir elementlari turg‘un so‘z birikmalar (iboralar)ni belgilash uchun qo‘llaniladi28.
Belgining hajmi va mukammalligi jihatidan korpus ikkita teng bo‘lmagan qismga bo‘linadi. Korpusning asosiy qismini matnlar tashkil etib, unda har bir so‘zga avtomatik ravishda turli-tuman morfologik tahlillar yozib qo‘yiladi. Korpusning ma’lum bir kismida mukammalroq belgi (razmetka) o‘z aksini topgan, aniqrog‘i: morfologik omonimiya qo‘lda bajarilib olib tashlangan, so‘zlarga semantik belgilar yozib qo‘yilgan, shuningdek, so‘zlarga urg‘u qo‘yib chiqilgan. Korpusning mazkur qismi aniq ma’lumotni beradi va lingvistik korpuslar uchun etalon vazifasini o‘tashi mumkin. Metamatnli belgi (razmetka) korpusning ikkala qismida bir xil xarakterga ega bo‘ladi29.
Hozirgi vaqtda korpus matnlarini qayta ishlash uchun zarur bo‘lgan dasturlar yetarli darajada mavjud. Masalan, «Ekspert lingvistik tizim» korpus-menejer tizimi shunday dasturiy tizimlardandir. Uning asosiy imkoniyatlari kuyidagilardan iboratdir:
tanlangan matnlar asosida leksema va so‘zshakllarining takrorlanishi lug‘atini yaratish imkoniyati;
olingan lug‘atning har qanday birligi uchun matnni ko‘rib chiqish imkoniyati;
grafikli so‘zni bo‘g‘inga ajratish;
so‘z zaxiralarini saralash;
bir vaqtning o‘zida cheklanmagan fayllarni qayta ishlash imkoniyati;
tashqi belgilarga ega bo‘lgan matnlar korpuslarini yaratish imkoniyati;
yaratiladigan matnlar korpuslari hamda korpusga kiruvchi alohida matnlar uchun statistik ma’lumotlarni hisoblab chiqish imkoniyati;
dastlabki matnlar bilan txt, doc va rtf formatda ishlash, kodlashtirishni avtomatik tarzda belgilash imkoniyati30.
Shunday qilib aniq bo‘ladiki, dastur – konkordanser yozish har qanday korpus yaratishning asosini tashkil etadi. Bu korpusning juda katta hajmdagi materiallarni tahlil etishga mo‘ljallangan elektron shakllar va keng ko‘lamdagi statistik materiallarni yig‘ishga yo‘naltirilgan o‘ziga xos jihatlari bilan bog‘liq.
Bu dasturning maqsadi o‘zbek tili Milliy korpusi uchun konkordans tuzishdan iborat bo‘ladi31. Korpusga kirish mezoni sifatida foydalanuvchilardan ma’lum bir so‘zshakllarida va korpusning barcha matnlari bo‘yicha qidiruv o‘tkazilib quyidagilar taqdim qilinishi talab etiladi:
so‘zshakllarining hujjatli takrorlanishi;
janrlar bo‘yicha takrorlanish;
so‘zshaklning konteksdagi o‘zgarishi.
Korpus strukturasi32 nima? Bu dastur material tahlili uchun yaratilgan. U fayllarda joylashgan korpus matnlari bo‘lib, to‘rtta janr (badiiy proza, publitsistika, ilmiy adabiyotlar – tahlillar – tafsilotlar, ilmiy ommabop va dramatik adabiyotlar) kategoriyalariga mos kelgan holda taqsimlangan. Bunda qo‘shimcha ravishda har bir guruh ichida fayllar korpusga qo‘shilgan yil hisobi bo‘yicha saralangan. Korpus ≈4 M bayt egallaydi va ≈ 1 mln so‘z ifodalarini o‘zida mujassamlashtiradi33.
Korpus matnlari urg‘u belgilariga ega bo‘ladi va so‘zlar orasidagi farqni ajratish uchun imkon yaratadi. Masalan, atlas (urg‘u ikkinchi bo‘g‘inda)– mato, material; atlas (urg‘u birinchi bo‘g‘inda) –xaritalar albomi; olma (urg‘u ikkinchi bo‘g‘inda) – meva, olma (urg‘u birinchi bo‘g‘inda) – buyruq fe’li (...birovning kitobini so‘ramay olma); yangi (urg‘u ikkinchi bo‘g‘inda) – sifat (yangi ko‘ylak), yangi (urg‘u birinchi bo‘g‘inda) – ravish (yangi keldi, ya’ni hozirgina keldi).
Shunga mos ravishda ushbu so‘zlar quyidagi ko‘rinishda bo‘ladi: atlas (urg‘u ikkinchi bo‘g‘inda) – atlas (urg‘u birinchi bo‘g‘inda), olma (urg‘u ikkinchi bo‘g‘inda) – olma (urg‘u birinchi bo‘g‘inda), yangi (urg‘u ikkinchi bo‘g‘inda) – yangi (urg‘u birinchi bo‘g‘inda).
Shu bilan birga «tarkibiy so‘zlar» (murakkab so‘z shakllari) degan tushuncha kiritiladiki, unda murakkab so‘z shaklining bir qismini ifodalash uchun qo‘llaniladigan ramz « », ya’ni «ekvivalent so‘zlarga mos kelish» tushuniladi.
Do'stlaringiz bilan baham: |