1.Matnni oldindan qayta ishlash bosqichi. Ushbu bosqichda turli manbalardan olingan barcha matnlar imloviy tuzatiladi va tahrir qilinadi. Matn bibliografik va ekstralingvistik tavsifga tayyorlanadi.
a) konversiya va grafik tahlil qilish bosqichi. Aksariyat matnlarni dastlabki qayta ishlash jarayonida ko‘rib chiqiladi. Bunda tilining kompyuter formati uchun kodlash va avtomatik tahlil uchun zarur bo‘lmagan elementlar (rasmlar, jadvallar) hamda matndagi tag osti chiziqlar olib tashlanadi.
b) avtomatik markirovka bosqichi. Bunda avtomatik markirovka natijalarini to‘g‘irlash, ya’ni xatolarni tuzatish va ajratish amalga oshiriladi (qo‘lda yoki yarim avtomatik).
2. Matnni belgilash bosqichi. Ushbu bosqichda korpusning zaruriy ma’lumotlari (metadata) kiritiladi. Korpus matnlarining meta-tavsifi: bibliografik ma’lumotlar, matnning janri va uslub xususiyatlarini tavsiflovchi belgilar, muallif haqidagi ma’lumotlar va boshqalarni o‘z ichiga oladi. Ushbu ma’lumotlar odatda qo‘l mehnati orqali kiritiladi. Matnning tarkibiy qismlari (paragraflar, jumlalar, so‘zlarni tanlash) va sof lingvistik belgilari ko‘pincha avtomatik ravishda amalga oshiriladi.
3. Korpusga kirishni ta’minlash bosqichi. Korpus displeyi quyidagi ko‘rinishda: CD-ROMda tarqatilishi va global tarmoq rejimida mavjud bo‘lishi mumkin. Foydalanuvchilarning turli toifalari turli xil huquqlarga va xilma xil imkoniyatlarga ega bo‘ladi.
4. Yakuniy bosqich – tegli matnlarni tez ravishda ko‘p parametrli qidirish va statistik ishlov berishni ta’minlaydigan ixtisoslashtirilgan lingvistik ma’lumot olish tizimining tarkibiga o‘zgartirish (korpus menejeri)kiritish bosqichi.
Albatta, har bir holatdagi bosqichlarning tarkibi va soni yuqorida sanab o‘tilganlardan farq qilishi va real texnologiya ancha murakkab bo‘lishi ham mumkin.
2.2. Lingvistik korpusda ma’lumotlarni taqdim etish tamoyillari
1965-1980-yillarda R.G.Piatrovskiy, D.N.Lavrov va uning shogirdlari tomonidan matn tanlash, korpusdan ma’lumotlarni taqdim etish tamoyillari ishlab chiqilgan43. Korpus uchun nazariy jihatdan ham, shuningdek, amaliy jihatdan ham eng qulay belgini ishlab chiqish yetarli darajada murakkab vazifadir. Korpus uchun ma’lumotlarni kodlash formati ko‘pgina qarama-qarshi talablarni qondirishi lozim bo‘ladiki, bu borada soha mutaxassislari R.G.Piatrovskiy, D.N.Lavrovlar tajribalariga tayangan holda o‘zbek tili milliy korpusi uchun ma’lumotlarni kodlash formatiga qo‘yiladigan talablarni quyida belgilaymiz:
to‘liqlik – barcha relevant ma’lumotni (lingvistik va metamatnli) namoyish etish imkoniyati;
kengaytirish – yangi turdagi ma’lumotlarni qo‘shish imkoniyati;
ixchamlik – format talablarini qondiruvchi ortiqcha belgilarning yo‘qligi;
tushunarlilik – inson uchun o‘zlashtirish qulayligi, ya’ni belgini qo‘lda tahrir qilish hamda shu orqali nazoratni amalga oshirish imkoniyati;
qo‘llaniladigan dasturiy ta’minot (morfologik parser, qidiruv yugurdagi (dvijok), filtrlar) bilan muvofiqlikni ta’minlash;
boshqa formatlarda konversiyalash qulayligi, tahrirni avtomatik bajarish imkoniyati;
tiniqlik – belgini qo‘yib chiqishda joriy matnning to‘liq saqlanib qolish imkoniyati. Belgini olib qo‘ygandan so‘ng hech bir xatosiz joriy matnni to‘liq qayta tiklash zarurati.
Razmetka, uning tur, xususiyati korpus lingvistikasi mutaxassislari tomonidan keng tavsiflangan44. Mutaxassislar tomonidan “razmetka” atamasiga berilgan izohlarni qo‘llab quvvatlagan holda bu xususida maxsus to‘xtalmaymiz. Razmetkaning ko‘pgina zamonaviy tillari SGML/XML ga asoslangan bo‘lib, unda belgilangan matn ikkita parallel ma’lumotlar qatlamini qamrab oladi: ko‘rinarli (matnning o‘zi) va yashirin (razmetka). Bunda ma’lumotning yashirin qismi matn ichiga joylashtiriladi, lekin maxsus markerlar <…> ichiga olinadi, ular esa, o‘z navbatda, ko‘rinarli matndan ajratib turadi. Annotatsiya yozishning tashqi usullari (masalan, izohlar)dan farqli o‘laroq, razmetka doimo matnga inkorporatsiya qilinadi va uning ajralmas qismi bo‘lib hisoblanadi. Razmetkaning boshqa tillari (TeX, RTF)ga nisbatan SGML/XML ning asosiy afzalligi shundaki, unda razmetka buyruqlarining qat’iy sintaksisi, atribut va elementlarning farqi, element chegaralarining aniq ko‘rsatmasi, o‘z-o‘zini hujjatlashtirish, yozuvni grammatik jihatdan to‘g‘ri kiritilishini avtomatik tekshirib berish imkoniyatlari mavjud45.
Korpus ma’lumotlarini kodlash standartlari o‘rtasida eng nufuzli standartlar quyidagilardir: TEI (Text Encoding Initiative)46, XCES (XML Corpus Encoding Standard)47, EAGLES (European Advisory Group on Language Engineering Standards)48. Ayniqsa, batafsil ishlab chiqilgan standart sifatida TEI tan olingan bo‘lib, turli xil turdagi matnlar va matnli ma’lumot elementlarining ifodalanish qoidalarini aniqlab beradi, bunda quyidagilarga alohida e’tibor qaratiladi: tuzilish, sarlavha, nutq uslublari (nasr, she’riyat, drama), betlar, sitatalar, snoska yoki havola (sahifa ost ichida izoh tarzidagi yozuv, izoh), tuzatishlar, jadvallar, formulalar, maxsus simvollar (belgilar), lingvistik annotatsiyalar va h.k.
Standartning maxsus sarlavhasi korpusni kodlash qoidalariga bag‘ishlangan. Garchi TEI korpus ilovalariga maxsus moslashgan bo‘lmasa-da, ko‘pgina hollarda unga o‘xshash standartlar bilan birgalikda faoliyat yuritadi, masalan, British National Corpus (BNC), Chexiya milliy korpusi, Vengriya milliy korpusi va b. XCES standarti TEI ning taraqqiy etgan versiyasi bo‘lib, faqat korpus uchun ishlab chiqilgan va korpusga tegishli o‘ziga xos teglarni aniqlash uchun mo‘ljalllangan49.
Mualliflik korpusining yaratilishi bilan bog‘liq tadqiqotlarda TEI (Text Encoding Initiative) haqida quyidagi ma’lumotlar keltirilgan: “Agar matn TEI (Text Encoding Initiative) asosida to‘liq razmetkalansa, bu ishga 25 soat vaqt sarflanishi mumkin. Razmetkasiz og‘zaki korpus hech qanday ahamiyatga ega emas, chunki hech bo‘lmaganda, bir vaqtdagi nutqning to‘xtam davomiyligi, urg‘u va intonatsiyasi ko‘rsatilishi lozim. Ba’zan matnga izohlar ham qo‘shiladi. London-Lund korpusi to‘liq razmetkasi og‘zaki korpus razmetkalari uchun standart vazifasini o‘tayapti. Korpus materiali necha tilda berilishiga ko‘ra bir va ko‘p tilli deb tasniflanadi”50.
Ammo TEI va XCES universal standartlarni batafsil o‘rganganimizda matnning ommaviy razmetkalanishi uchun ular juda murakkab, keragidan ortiqcha va noqulay bo‘lishi aniqlandi. TEIning to‘liq qoidalari juda keng ko‘lamli va har doim ham asosli emas, shuning uchun mazkur standartning barcha talablariga amal qilish yetarli darajada qiyinchilik tug‘diradi. Format ixchamlik bilan ajralib turmaydi va odatda mazmunli ma’lumotga nisbatan razmetka ko‘payib ketishi kuzatiladi. Format tiniqlik vazifasini yo‘qotib qo‘yadi, masalan, meta-atributlarni matn ko‘rinishida teg ichida yozib qo‘yish taklif qilinadi, shuning uchun razmetka olib tashlanganda dastlabki matn asl holiga holiga qaytishida xatoliklar yuzaga keladi.
“Ortiqcha” teglarni inkor etib, TEI ilovalari bilan ham chegaralansa bo‘ladi. Korpusni taqdim etish uchun TEI dan teglarning minimal to‘plami tanlanadi va Guidelines: — matn,
— satr boshi, — gap, — so‘z, morfologik tahlil esa atribut ko‘rinishida yoziladi. Lekin bunday ko‘rinishda korpus razmetkasi standartiga to‘liq rioya qilmaydi. Mazkur ko‘rinish HTMLning soddalashtirilgan variantini eslatadi.
XML – formatlarining murakkabligi uning asosiy muammosi emas, balki tayyorlash, qayta ishlash, indeksatsiyalash va qidirish kabi hammabop dasturlarning umuman yo‘qligi katta muammo hisoblanadi. Mutaxassislarning ixtiyorida nisbatan oddiy dasturlar mavjud. Jumladan, XML – analizatorlar, muharrirlar, konvertorlar, chiziqli qidiruv dasturlaridan keng foydalanib kelinmoqda51. Bundan ko‘rinadiki, millionlab so‘z hajmiga ega korpus uchun bunday dasturlar to‘plami yetarli emas. Albatta, korpusning ichki muammolarini va razmetkasini tayyorlash kabi vazifalarni maxsus yozilgan konvertorlar, makroslar va boshqa vositalar yordamida bartaraf etish mumkin. Lekin korpusni ommaga chiqarish (Internet) maqsadida, yetarli darajada qudratli qidiruv tizimiga ega bo‘lish lozim. Qidiruv tizimi korpusda mavjud millionlab so‘zlar orasida XML – formatda kodlangan relevant (mos) ma’lumotni tez qidira olish imkoniyatiga ega bo‘lishi kerak.
Korpus uchun qidiruv tizimi52 o‘rniga, dasturiy vositalar o‘rtasida quyidagi guruhdagi dasturlar mos keladi:
relyatsion ma’lumotlar bazasi;
XML – moslashtirilgan ma’lumotlar bazasi;
to‘liq matnli qidiruv tizimlari.
A.Eshmo‘minov: “Bugungi kunda lingvistik axborotni tashuvchi matn razmetkasi SGML/XML tili negizida amalga oshiriladi. Bunda lavhadagi (matn so‘z, gap) atributlarni sintaktik strukturalar darajasida funksional aniqlash nuqtai nazardan ajratib olinadi”, deya o‘z fikrini asoslab beradi53.
O‘zbek tili milliy korpusining qidiruv tizimiga bo‘lgan asosiy talablarni ifodalaymiz:
so‘z va so‘z birikmasini ularning belgilari (grammatik, semantik va b.) ga qarab qidirish;
matn (nutq yoki asarning tugal fikr anglatuvchi parchasi) va so‘zlar orasidagi masofani hisobga olish;
metamatnli ma’lumotni qidirish;
taraqqiy etgan til talablariga xos, o‘z ichiga mantiqiy bog‘lamalar, qavs va matn operatorlarni qamrab olish;
indeksatsiyalash samaradorligi;
yetarli darajadagi murakkab savolga yetarli darajadagi tezlikda javob topish;
keng ko‘lamlilik, yetarli darajadagi katta hajmgacha (yuz millionlab so‘zlarni ishlatish).
Aksariyat qidiruv tizimlari uchun eng murakkab muammolaridan biri bu – matnli qidirish. Ko‘pgina qidiruv tizimlari uncha katta bo‘lmagan massivlarda ishlaydi, lekin korpus hajmi ortgan sayin ishlash tezligi va qidirish sifati kamayadi. Bunda qidiruv tezligi nafaqat korpus hajmi, balki talabning murakkabligiga, so‘zlar soniga uzviy bog‘liq.
Matn qidiruvni amalga oshirish, katta hajmdagi xotiraga bog‘liq, chunki har bir so‘z(so‘z belgilari)ning aniq o‘rnini, ko‘p millionli matnlar massivida xotirada saqlash kerak bo‘ladi. So‘z o‘rni, odatda, uch ko‘rinishda belgilanadi: hujjat raqami – gap raqami – gapda so‘z raqami. Bunday tizimni relyatsion ma’lumotlar bazasida joriy etishda jadvallardan foydalaniladi, bunda so‘z o‘rni (uchta son ko‘rinishida) har bir satrda va so‘z atributlari to‘plami (leksema va uning belgilari)da namoyon bo‘ladi.
So‘z birikmasini matn qidiruv tizimi orqali topish maqsadida, har biri millionlab satrga ega ikkita jadvalning (join) qo‘shish amali talab etiladi. Haqiqatda esa relyatsion tizimlarda ma’lumotlar, odatda, ko‘pgina jadvallar ichida joylangan, qism yoki parcha ko‘rinishida saqlanadi. Masalan, joyni tejash maqsadida leksema va belgilar alohida jadvallarga kiritiladi, asosiy jadvallarda esa ularga chiqadigan havola (ssilka) saqlanadi. Shuning uchun relyatsion tizimlar so‘rov murakkab bo‘lgan vaziyatda, chiziqli bo‘lmagan javobni berish imkoniyati majud.
Nazariy jihatdan XML formatidagi matn korpuslari uchun XML – moslashtirilgan ma’lumotlar bazasi (Berkley DB XML, Exist, Ozone, Tamino, Xindice) nihoyatda mos keladi54. Lekin ular yaqinda paydo bo‘lgan va yetarli darajada relyatsion tizimlar o‘rtasida o‘z samarasini ko‘rsata olmagan. Odatda, ular uncha katta bo‘lmagan hujjatlar bilan ishlashga moslashgan. Mazkur tizimlarning ishlash mantiqiga asosan, har bir gapni alohida mavjud bo‘lgan hujjatga ajratish to‘g‘ri kelar edi. Bu esa mutlaqo noto‘g‘ri. Undan tashqari ma’lum bo‘ldiki, qidiruv tizimida XML tuzilishini tillar so‘rovnomasida tavsiflash juda qiyin, garchi har bir so‘z va gaplarni raqamlashtirsak ham. Agar matnning oddiy modeli (so‘z, gap, xat boshi)ni ishlatsak, qidiruv vositalaridan foydalanmasak ham bo‘ladi. Bundan ma’lum bo‘ldiki, XML – tizimlar deyarli ko‘p qo‘llanilmaydi, lekin ularning zaif tomonlari korpusning eng muhim masalalarini yechishga yordam beradi55.
Korpus bilan ishlashda yuqori samaradorlikka erishish uchun, to‘liq matnli qidiruv tizimi zarur. Mazkur tizim ulkan matnlar massivida matn qidiruv vositasi uchun maxsus optimallashtirilgan. Bunday tizimlar o‘rtasida eng mashhurlari – Yandeks-server va Google internet qidiruvi, shuningdek, indeksatsiya va internet-manbalar qidiruvi kabi tizimlar ham. Tabiiy ravishda o‘zbek tili korpusi uchun Yandeks-server tizimi juda mos. Yandeks-server tizimi juda yuqori samaradorlik va keng ko‘lamlilik, matn qidiruvni to‘liq amalga oshirish, qudratli til so‘rovnomasiga ega bo‘lish, matnlarning nostandart turlari uchun egiluvchan indeksator sozlagichini o‘rnatish, o‘zbek tilini to‘liq ko‘tarish kabi imkoniyatlariga ega. Yandeks-server qisqa fursat ichida ulkan matnlar massivida murakkab so‘rovlarni amalga oshirish imkoniyatiga ega bo‘lib, bunda qidiruv tezligi korpus hajmiga umuman bog‘liq emas56.
Korpusda ma’lumotlarni tasvirlash formati, mavjud bo‘lgan kodlash standartlari asosida ishlab chiqiladi (TEI, XCES). Lekin orientir sifatida internetda matnlarni tasvirlash uchun mo‘ljallangan HTML tili tanlangan. TEI va XCES – murakkab va ekzotik format bo‘lib, zaif dasturiy ta’minotga, HTML tili SGML/XML oilasiga mansub, eng keng tarqalgan format bo‘lib, ko‘pgina dasturlarda ishlash imkoniyatiga ega. Bugungi kunda qidiruv tizimlari HTML teglarning semantikasi va tuzilishini tushunib qobiliyatiga ega bo‘lishi bilan birga XML – hujjatning semantikasini hech tushuna olmayaptilar. Rasman uning tuzilishini indeksatsiyalashi mumkin 57.
HTML — razmetkaning tarkibi va hajm jihatdan minimal darajada talablarni taqdim etadigan juda oddiy format bo‘lib, amalda ko‘p bo‘lmagan buyruqlarni ishlatish imkoniga ega58. Qo‘lda qilinadigan tahrir va vizual idrok uchun juda qulay va ixcham format bo‘lib hisoblanadi. Odatda, til birliklarini namoyish etishda, standartning o‘zida teglar mavjud bo‘lmaydi, lekin HTML nostandart teglarni ishlatish imkonini bera oladi va mazkur muammo qidiruv serverining maxsus sozlov yo‘li orqali o‘z yechimini topadi.
Korpus formati bir nechta HTML tiliga ega bo‘lib, unda lingvistik birliklar uchun bir muncha maxsus teglar biriktirilgan. Ushbu format, matn haqidagi muhim ma’lumotni kodlash talablarini aniqlab beradi va quyidagilarni o‘z ichiga oladi:
metamatnli atributlar;
matn tuzilish elementlari (sarlavha, xat boshi, she’rlar, snoska yoki havola (sahifa ost ichida izoh tarzidagi yozuv, izoh, jadvallar);
lingvistik birliklar (gaplar, so‘zlar, guruhlar);
leksik ma’lumot (grammatik, semantik belgilar);
matnni rasmiylashtirish parametrlari, maxsus belgilar va b.59
Yandeks – server talablari va imkoniyatlari uchun format qisman moslashtirilgan bo‘lsa-da, lekin mavjud bo‘lgan standartlardan nihoyat darajada farq qilmaydi. Korpusda fayl doimo HTML tuzilish, standart HTML sarlavha va matnni o‘z ichiga qamrab oladi. Metamatnli atributlar esa tabiiy ravishda standart teglar yordamida belgilanadi, ular esa, o‘z navbatida, atributlar to‘plamini namoyish etish imkonini beradi. Sarlavha tarkibidagi yordamchi ma’lumot, matnning kelib chiqish manbayi haqida axborot beradi.
Asosiy matn, turli xil turdagi abzaslar ketma-ketligidan iborat bo‘lib, quyidagilarni ajratadi: oddiy matn, sarlavha, she’riy parcha (strofa – she’r bandi), epigraf, snoska, e’tiroz va b. Odatda, abzas turi class atributsida kodlanadi:
mun> ….
, shunday qilib, mazkur modelda matnning turli xil strukturali birliklarni belgilash maqsadida, maxsus teglarni ixtiro qilish shart emas. Minimal razmetkada abzas turi belgilanmaydi va butun razmetka, abzas chegaralarini ajratib olishga mo‘ljallanadi.
Matn boshida,
….
teg o‘z ichiga «Ism, Sharifi, Nomi» format ko‘rinishida matn sarlavhasini qamrab olishi shart60. Hujjat bo‘limlarning sarlavhalari esa
son id = identifikator > .... < /p> teglarda joylashadi, bunda son elementning ierarxik darajasini anglatadi: 1 = qism, 2 = bob, 3 = bob bo‘limi. 1 daraja katta asarlar qismlarida ishlatiladi, aks holda yuqori daraja sarlavhasi 2 raqamini qabul qiladi. Bunda aniq sarlavhalar (tarkibida «qism», «bob» degan so‘zlar bo‘lsa yoki alohida raqam) belgilanib, belgilanmagan bo‘limlar esa oddiy abzaslar ko‘rinishida ifodalanadi. Sarlavhalarda matn to‘g‘ri kapitalizatsiya bilan yozilishi shart. Masalan, «1 Bob. Tong» — bu to‘g‘ri ko‘rinish, «1 BOB. TONG» — bu esa noto‘g‘ri ko‘rinish. Matnning katta fragmentlari qayd qilinadi va to‘g‘ri registrga o‘tkaziladi. Mazkur jarayonda matnning katta fragmentlarini parser qayta ishlaydi. Alohida, yozma shaklda yozilgan so‘zlar esa asl ko‘rinishida qoldiriladi.
She’riy fragmentlar abzaslar ko‘rinishida
…
rasmiylashtiriladi, she’rlar ichidagi satrlar chegarasi esa
orqali belgilanadi. Snoska
…
abzas usulida tasvirlanadi va bevosita abzasdan so‘ng joylashtiriladi. Bunda ssilka yoki barcha snoskalar fayl oxirida o‘z o‘rnini egallaydi. Snoska raqamini … teg ko‘rinishida, ssilkani snoska bilan bog‘lash, snoskani < a href = «$f raqam» > …
raqam» >…
gipermatnli ssilka bilan rasmiylashtirish tavsiya etiladi.
Jadvallar abzaslar to‘plami ko‘rinishida tasvirlanadi. Oddiy hollarda jadvalning har bir satri abzas kabi tasvirlanadi, yacheykalar esa tabulyatsiya orqali ajratiladi. Murakkab jadvallarda, qayerda yacheyka bir necha satrlardan iborat bo‘lsa, shunda har bir yacheyka alohida abzas ko‘rinishida tasvirlanadi. Bunda yacheyka o‘zaro bog‘langan matnga ega bo‘lishi zarur61.
Alohida matn fragmentlari semantik interpretatsiyasiz, shrift orqali rasmiylashtiriladi. Standart HTML: (qalin), (kursiv), (razryadka – harflar orasini ochib terish), (yuqori indeks) teglar qo‘llaniladi.
Windows operatsion tizimida o‘zbekcha kodlanishda ba’zi bir simvollarning yetishmasligi, HTML é yoki ā turidagi standart kodlar yordamida amalga oshiriladi. O‘zbek so‘zlarda urg‘u belgisi harfdan so‘ng qo‘yiladi hamda ́ (aket) va ̀ (gravis) ko‘rinishida yoziladi. Diakritik belgi (harf ustida yoki ostidagi belgi)li lotin harflar esa HTML kodlar yordamida yoki diakritik belgilarsiz soddalashtiriladi.
ko‘rinishdagi oddiy formulalar zaruriy bezaklar (kursiv, qalin, indekslar) bilan bezatilib, matn sifatida yoziladi, murakkab formulalar esa olib tashlanadi.
Lingvistik birliklarni belgilash maqsadida nostandart teglardan foydalaniladi, masalan, qisman o‘zlashtirilgan teg TEI: — so‘z, — gap (bunda HTML da o‘chirib tashlash uchun mo‘ljallangan). Leksik ma’lumotlar teg atributlarida joylashtiriladi va quyidagi ko‘rinishda yoziladi:
<
Do'stlaringiz bilan baham: |