w lex = ‘leksema’ gr = ‘grammatik belgilar’ sem = ‘semantik belgilar’> so‘zw>
Atributlardagi grammatik va semantik belgilar gr va sem probel (oraliq), vergul va boshqa harf bo‘lmagan belgilar orqali ajratiladi. Morfologik tahlil variantlari «;» simvoli orqali ajratilib, bunda leg va gr atributlardagi variantlarni o‘tkazish tartibi mos keladi. Razmetkani o‘qiydigan foydalanuvchi uchun belgilarning tartibi va aniq ajratilishi juda muhim, qidiruv mashinasi uchun esa bu ahamiyatsiz, chunki barcha belgilar teng asosda indeksga tushadi.
Taklif etilgan format orqali leksik ma’lumotni kodlash barcha talablarga javob berib, eng optimal variantlardan biri desak ham mubolag‘a bo‘lmaydi. Mazkur format yetarli darajada ixcham hamda to‘liqlilik va kengayuvchanlik xususiyatlari borligi sababli yangi atributlarni qo‘shish imkoniyati mavjud. Format to‘liq ravshan, chunki dastlabki matn o‘zgarishsiz xotirada saqlanadi, barcha lingvistik ma’lumot esa atributlarda bekitiladi. Format HTML/XML qoidalariga moslashtirilgan va turli xil turdagi dasturlar, qidiruv indeksatori, morfologik parser, konvertorlar va tahrirlagichlar bilan tez kirisha olish xususiyatiga ega. Mazkur afzalliklarning barchasi korpusda razmetkani avtomatlashtirish uchun keng imkoniyatlarni ochib beradi.
2.3. Lingvistik korpus uchun matn tayyorlash texnologiyasi
“O‘zbek kompyuter lingvistikasi o‘zbek tilining boshqa tillardan, masalan, ingliz tilidan tamomila farq qiladigan xususiyatlari asosida shakllantiriladi. Bu esa o‘zbek kompyuter lingvistikasini yaratishdan oldin o‘zbek tilini mukammal darajada sistemalashtirish, formallashtirish vazifalarini amalga oshirish zaruriyati mavjudligini ko‘rsatadi. O‘zbek tili kabi boy, keng va chuqur rivojlangan til masalalarini kompyuterda yechish darajasiga olib chiqish ingliz tiliga qaraganda katta hajmda ish bajarishni talab qiladi”, deya ta’kidlaydi A.Po‘latov62. Olimning fikriga qo‘shilgan holda aytish mumkinki, o‘zbek kompyuter lingvistikasini yaratishda ingliz kompyuter lingvistikasidan to‘g‘ridan to‘g‘ri foydalanib bo‘lmasa ham, uning asosiy g‘oyalariga tayanish mumkin. Biz o‘zbek tilining til korpusini tuzishga mo‘ljallangan lingvistik baza va milliy matnlar banki tayyorlanishda rus tili Milliy korpusi bo‘yicha olib borilgan tadqiqot ishlariga murojaat qilamiz. Korpus uchun matnlar bankini tayyorlash juda muhim sanaladi. Korpus tarkibiga kiradigan matnlarni quyidagi turlarga bo‘lish mumkin:
1) bir necha yozuvchi asaridan olingan matnlar yoki alohida bitta muallif asaridan olingan matnlar;
2) ma’lum bir davrni yoki vaqtni o‘z ichiga qamrab olgan matnlar;
3) zamonaviy tor doiradagi mavzularga yo‘naltirilgan matnlar;
4) bugungi til va jamiyatni aks ettiruvchi zamonaviy matnlar63.
Korpus uchun matnlarni tayyorlash jarayonida A.E.Polyakov64 kuzatishlariga tayanamiz. Chunonchi,
HTML minimal formatda matnning ilk razmetkasi;
morfologik razmetka va omonimiya (korpus qismida)ning aniqlanishi;
metamatnli razmetka;
Yandeks-server uchun chiqish formatiga o‘zgartirish.
Har bir keyingi bosqichda avvalgiga nisbatan qo‘shimcha ma’lumotning hajmi va mazmuni har doim oshib boradi. Birinchi bosqichda uning rasmiy tuzilishi haqida ma’lumot kiritiladi, matn elementlarining turlari belgilanadi, bezash parametrlari va maxsus simvollar aniqlanadi. Ikkinchi bosqichda matnga lingvistik (morfologik) ma’lumot qo‘shiladi. Uchinchi bosqichda, metamatnli atributlar to‘plami ko‘rinishida matnning «pasport»i paydo bo‘ladi. Oxirgi bosqichda metamatnli ma’lumot matn bilan birlashadi va Yandeks-server yordamida indeksatsiyalanadi. Shundan so‘ng matn korpusning qismiga aylanib, qidiruv uchun yaroqli bo‘ladi.
Matnni tayyorlash turli bosqichlarida eng murakkab amallarni avtomatlashtirish va texnologik jarayonni qo‘llab-quvvatlash maqsadida dasturlar va usullar majmui ishlab chiqilgan. Ba’zi bir amallar (omonimiya bekor qilinishi, metarazmetka)ni avtomatlashtirib bo‘lmaydi, lekin ularni foydalanuvchi nazorati ostida avtomatlashtirilgan rejimda bajarish uchun qulay muhit yaratilib beriladi.
Avtomatlashtirish imkoniyati ma’lum bir darajada matn formatining turli bosqichlarida ifodalanishiga bog‘liq. Aynan shu jarayon barcha amallarni yagona texnologik zanjirga biriktirib, bir dasturning chiqish ma’lumotlari, keyingilar uchun kirish mu’lumotlar ko‘rinishida ifodalanadi. Bu jarayon uzilmay davom ettiriladi. Mazkur bog‘lam barcha bosqichlar uchun muhim. Texnologiyaning barcha bosqichlarida: oddiy matn, HTML razmetkasi kabi matn formatlari qo‘llaniladi. Matn formatlari murakkab va yopiq ikkilik formatlari (DOC, XLS, PDF)dan farqli ravishda, eng oddiy, tushunarli, universal hisoblanib, ko‘pgina dasturlar orqali qayta tayyorlanadi65.
Texnologiyada Perl dasturlash66 tili keng qo‘llaniladi. Perl dasturlash tili matnlarni qayta ishlash uchun mo‘ljallangan qudratli vositalarga ega. Ulardan: global qidiruv tizimi, doimiy ifodalarni almashtirish vositasi, dinamik ma’lumotlar (assotsiativ massivlar) strukturasi. Perl dasturlash tilida ko‘pgina servis dasturlar (konvertorlar, filtrlar, tekshiruv dasturlari) yozilgan bo‘lib, u «elim» vazifasini bajarib, barcha komponentlarni yagona zanjirga biriktirish vazifasini amalga oshiradi.
Milliy korpus uchun tanlangan matnning ilk razmetkasi uchun matnlar turli xil manbalardan olinadi va har xil formatlarda ifodalanadi: oddiy matn, HTML, RTF, PDF va b.q. Har bir kirish format uchun konvertorlar va makroslar to‘plami yaratiladi va ular yordamida dastlabki matn HTML ko‘rinishga o‘zgarartiriladi. Konvertorlar va makroslarda Perl va Winword ning imkoniyatlari: global qidiruv, doimiy ifodalarni almashtirish kabilar keng qo‘llaniladi.
O‘zbek tili milliy korpusini yaratishda qo‘llaniladigan dastlabki formatlarni ko‘rib chiqamiz:
1. Oddiy yoki umuman bezatilmagan matn (plain text67).
Bu formatda abzaslar, odatda, boshlang‘ich probellar yordamida belgilanadi, so‘z perenos (so‘zni bo‘lib, keyingi satrga ko‘chirish (-)) belgilari, ko‘pincha saqlanadi, shriftli ajratishlar _ * simvollar orqali belgilanadi va h.k. HTMLga o‘tkazish jarayonida ortiqcha probellar, perenoslar olib tashlanadi va abzaslar
teglar bilan almashtiriladi, strukturali elementlar (sarlavha satri, she’rlar) belgilanadi, shrift buyruqlari qo‘shilib, faylning to‘g‘ri sarlavhasi yaratiladi. Bunday matnlar uchun konvertorlar va makroslar (global almashtirishlar) to‘plami ishlab chiqilgan bo‘lib, minimal HTML – razmetkani tezda qabul qilish imkoniyati mavjud.
2. Internetdan olingan HTML – razmetkali «boy» matn.
Mazkur matnlarning asosiy muammosi – matn mazmuniga umuman to‘g‘ri kelmaydigan, faqat bezak uchun ishlatiladigan ortiqcha razmetkaning katta hajmi. Bunga turli-tuman bannerlar, schetchiklar, skriptlar, navigatsion ssilkalar, menyu, jadvallar, ikonka(biror bir amalni bajaradigan belgi)lar kiradi. Ular har bir betda takrorlanib, 50-90% hajmni egallab turadi. Ba’zan ana shu «axlat» butun bir betni qoplab, matn mazmunini ilg‘ab olishda katta qiyinchiliklar tug‘diradi. Deyarli har bir sayt uchun matn mazmunini ajratib oluvchi maxsus filtr ishlab chiqish zarur, lekin shu filtrlardan keyin ham, foydalanuvchi ortiqcha razmetkani tuzatib, olib tashlashga to‘g‘ri keladi.
Winword (RTF) formati.
Mazkur format uchun makroslar va almashtirishlar to‘plami ishlab chiqilgan bo‘lib, yetarli darajada «boy» razmetkali HTMLga ega bo‘lish uchun mo‘ljallangan. Ushbu «boy» razmetka original bezaklarning (shritfli ajratishlar, maxsus simvollar, abzaslarning turli xillari, jadvallar va h.k.) asosiy qismini xotirada saqlash imkoniyatiga ega. Aslida, Winword ning mavjud bo‘lgan konvertorlari HTMLda murakkab va ortiqcha kodni keltirib chiqaradi va oqibatda ularni tozalab, kerakli ko‘rinishga keltirish ancha mushkullikni yuzaga keltiradi. Shuning uchun Winwordda joylashgan razmetkaning original variantidan foydalanib, samarali imkoniyatlardan foydalanish ma’qul. Demak, Winword ikkita funksiyada qo‘llaniladi: «boy» bezakli hujjatlarni tayyorlash tizimi va global almashtirishlar uchun oddiy matn muharriri sifatida.
Nashriyot tizimlarning formatlari va PDF.
Mazkur formatlar, standart formatlarga o‘tkazish: Winword (RTF) yoki oddiy matn, ya’ni konvertatsiyadan keyin qayta ishlanishi mumkin. Barchasi mavjud konvertorlarning xususiyatlari va imkoniyatlaridan kelib chiqqan holda amalga oshiriladi. Ko‘pgina dasturlar hujjatni yuqorida ko‘rsatilgan formatlarning birida xotirada saqlash imkoniyatini yaratib beradi, so‘ng Winword texnologiyasi bo‘yicha yoki oddiy matn ko‘rinishida qayta ishlanadi.
Matn formatida (CSV) ajratgichlar bilan jadvalli ma’lumotlar.
Ba’zi bir ma’lumotlar jadvallar ko‘rinishida ifodalanadi. Jadvallar esa, o‘z navbatida, metamatnli atributlar va matn(oddatda juda qisqa)dan iborat. Bunday ko‘rinishdagi ma’lumotlar uchun konvertor ishlab chiqilgan bo‘lib, tarkibida matn va metamatnli atributlar kerakli formatda ifodalanadi va qayerdaki o‘z o‘rnida HTML fayldagi jadvalning har bir satri generatsiyalanadi68.
Matnni tayyorlash jarayonida undan muallifga tegishli bo‘lmagan yoki til o‘rganish uchun ahamiyatli bo‘lmagan elementlar olib tashlanadi, xususan:
sahifa raqamlari, ustun sarlavhalari;
titul sahifalar, mundarija, chiqish ma’lumotlar, tizimli yozuv, annotatsiyalar;
muharrir izohlari (muallif tomonidan yozilgan izohlar saqlanadi);
rasmlar, sxemalar, formulalar (lekin ular ostida imzolar saqlanadi);
raqamlarning uzun izchilligi (jadvallarda).
Agar boshlang‘ich fayl to‘plam ko‘rinishida ifodalansa, unda mundarijaga muvofiq alohida matnlarga ajratiladi. Muqaddima va sharhlar (mualliflik sharhlardan tashqari) oddiy matn ko‘rinishida rasmiylashtiriladi. Agar ular korpus uchun muhim bo‘lib hisoblanmasa, to‘g‘ridan to‘g‘ri olib tashlanadi.
Rasmiylashtirishning ko‘pgina elementlari soddalashtirilgan ko‘rinishda ifodalanadi, masalan, jadvallar jadval ko‘rinishida saqlanmaydi, abzas usullari faqat kerak bo‘lgan paytda ajratiladi, sarlavhalarning shrift bilan bezalishi umuman xotirada saqlanmaydi.
Servis dasturlarning katta to‘plamiga qaramay, boshlang‘ich razmetka juda murakkab amallardan biri sanaladi, chunki barcha qiyin ishlarni matnning aniq bir xususiyatlaridan kelib chiqqan holda foydalanuvchi o‘zi mustaqil ravishda bajarishi lozim. Birinchi bosqichda matn sifatining aniq darajasiga erishish shart, chunki keyinchalik matnni qayta ishlash imkoni yo‘qoladi.
Mutaxassislar tomonidan razmetka 2 turga ajratib izohlanadi69. Jumladan, Sh.Hamroyevaning tadqiqot ishida ham rezametkaning 2 turi haqida fikr yuritilgan70.
Ekstralingvistik razmetka yoki metarazmetka quyidagi xususiyatlarga ega bo‘ladi: matn formatining o‘ziga xosligini aks ettiruvchi (bob, xatboshi, qism va h.k.) va matn, uning muallifiga tegishli ma’lumotni ifodalovchi razmetka.
Ekstralingvistik razmetka quyidagi standartlarga amal qiladi:
“proyekt TEI (Text Encoding Initiative)”, “rekomendatsii EAGLES (Expert Advisory Group on Language Engineering Standards)”,”standart CES (Corpus Encoding Standard)”, “standart XCES (Corpus Encoding Standard for XML)”, “proyekt ISLE (International Standards for Language Engineering)”, “standart CDIF (Corpus Document Interchange Format, BNC)”71.
Bunday razmetkada muallif haqidagi ma’lumot nafaqat uning nomi, balki yoshi, jinsi, u yashagan yili kabi ma’lumotlarni ham o‘z ichiga oladi. Matn haqidagi ma’lumot o‘z ichiga: asar nomidan tashqari uning tili, yozilgan hamda nashr etilgan yilini ham qamrab oladi. Bunday razmetka tashqi intellektual ma’lumotlarni qamrab oluvchi, bibliografik, tipologik, tematik, sotsiologik tavsifni; shakliy-strukturaviy razmetka, texnik-texnologik razmetkalarni birlashtiruvchi razmetka hisoblanadi.
Lingvistik razmetka bir necha ko‘rinishlarga ega72. Lingvistik razmetka xususida batafsil to‘xtalib o‘tirmaymiz, ularning turlarini sanab o‘tish bilan chegaralanamiz. Chunki Sh.Hamroyeva va A.Eshmo‘minovlarning tadqiqot ishida ham lingvistik rezametkaning turi haqida atroflicha fikr yuritilgan73. V.P.Zaxarov fikricha74, lingvistik razmetkaning barcha (morfologik, sintaktik, semantik, anaforik, prosodik) turlari quyidagi tamoyillar asosida amalga oshiriladi:
razmetka sxemasini tavsiflash (asoslash);
umumiy lingvistik tushunchalar tizimini aniqlash;
foydalanuvchi uchun ma’lum bo‘lgan tahlil sxemasini shakllantirish;
razmetka sxemasining nazariy an’anaviyligiga erishish;
xalqaro andozalarga amal qilish.
Razmetkalashda Gramedit maxsus muharrirdan foydalaniladi. Mazkur muharrir avtonomsiz dastur bo‘lib, uning Winwordda o‘z moslashuv imkoniyatlari mavjud. Natijada, razmetkalash ilovasi o‘ziga tanish muhitga tushib, ushbu muharrirning barcha imkoniyatlaridan samarali foydalaniladi. Vizual ajratish maqsadida, matnning turli xil elementlari turli rang va uslublarda bezatiladi, xususan,
–razmetkaning tahlili va buyruqlar varianti yashirin matn ko‘rinishida rasmiylashtiriladi va, odatda, oddiy rejimda ko‘rinmaydi;
–so‘z shakllari tahlil variantining soniga qarab turli ranglar bilan rasmiylashtiriladi: nol, bir yoki bir necha.
Joriy so‘z shakllari uchun tahlil variantlari ro‘yxat ko‘rinishida beriladi, bunda to‘g‘ri variantni tanlab yoki mavjud bo‘lgan variantni tahrirlash lozim. Muharrir matn bo‘yicha bemalol ko‘chib yurish, shuningdek, global almashtirish va o‘zgartirishlarni amalga oshirish imkonini yaratib beradi.
Metamatnli atributlar matnlarda har xil vaziyatda yozib qo‘yiladi, shuning uchun 2 va 3 bosqichlar parallel yoki ixtiyoriy ravishda bajarilishi mumkin. Lekin matn identifikatsiyalangan va qayd etilgan fayl nomiga ega bo‘lishi shart. Bunda biror bir birikuv yoki fayl nomini o‘zgartirish kabi amallar bajarilmaydi, chunki bunday amallar butun bir tizim ishini buzib tashlashi aniq.
O‘zbek tili milliy korpusini yaratish uchun metama’lumotlarni saqlash maqsadida oldindan belgilangan tuzilish bo‘yicha oddiy Excel jadvallaridan foydalaniladi, bunda birinchi ustunda fayl nomi (aniq ko‘rsatilgan yo‘l), boshqa ustunlarda esa metamatnli atributlar va texnologik ma’lumot keltiriladi. Mazkur amal Excel dasturining o‘rnatilgan vositalaridan samarali foydalanish imkonini beradi va qidiruv tizimida ancha qulayliklar tug‘diradi. Masalan, qidiruv, filtratsiya, tahlil va ma’lumotlarni qayta ishlash (amallar ro‘yxati, avtoto‘ldirish, statistika). Bunda jadvallar matn formatida saqlanishi lozim va bu formatni Excel tushunishi shart. Mazkur amal orqali jadval ko‘rinishda saqlangan fayl, nafaqat Excel, balki boshqa jadvalli dasturlar qabul qilishi va ishlash imkoniyatining samaradorligini oshirish imkoniyatini beradi.
Nazariy jihatdan metama’lumot har bir matndan alohida holda saqlanishi mumkin, lekin HTML qoidalariga, asosan, ma’lumot fayl sarlavhasida saqlanishi kerak, shundagina Yandeks-server ma’lumotni indeksatsiya qilish imkoniyatiga ega bo‘ladi. Metama’lumotni alohida xotirada saqlash paytida sinxronizatsiya, meta-jadvallar va matnlarning bir-biri bilan o‘zaro kelishuvi muammosi doimo kelib chiqadi. Bunday muammoni hal qilish maqsadida quyidagi o‘zbek tili milliy korpusi dasturlar majmui ishlab chiqilgan:
Metas dasturi fayl sarlavhalaridan metamatnli atributlarni yig‘ib, meta-jadval sarlavhasini yaratadi va Excel muhitida qo‘l yordamida o‘zgartirib chiqiladi. Hamma gap shundaki, ilk qayta ishlash bosqichidayoq matnga ma’lum bir metama’lumot kiritilishi mumkin, masalan, muallif nomi, sarlavha va yaratilish sanasi. Oxirgi bosqichda esa Metas.bat dasturi barcha atributlarni yig‘ib, oxirgi tekshiruv bosqichini yana bir bor takrorlab berish imkonini yaratadi.
Meta2txt dasturi metamatnli atributlarni tuzatilgan meta-jadvallardan olib, mavjud bo‘lgan matnlarga o‘tkazadi. Ushbu dastur fayl mavjudligini tekshirib, sarlavhani yangilab turadi. Jadvallarda atributlarning ko‘pchilik amallari “ ” simvoli orqali bo‘linadi. Matn o‘zgartirilganda esa har bir amal alohida atribut ko‘rinishiga keladi. Vaholanki, metamatnli atributlar matnlar va meta-jadvallar orasida erkin harakatlanishi mumkin. Metarazmetka esa tekshiruvning bir necha sikllari bilan interaktiv bajarilishi mumkin.
MetaTest dasturi meta-jadvalning xatosizligi tekshirib beradi. Bunda normativ jadvalda atribut amallari shablonlarda ko‘rsatilgan amallar bilan qiyoslanadi. Dasturda noto‘g‘ri amallar “#” simvoli bilan belgilanadi, shuningdek, qo‘l yordamida tekshiriladi va tuzatiladi.
Yuqorida barcha ko‘rsatilgan dasturlar Perl tilida amalga oshiriladi.
Natijaviy tekshiruv oxirida metamatnli ma’lumot belgilangan matn bilan birlashtiriladi va yagona ma’lumotli birlik ko‘rinishiga keltirib, internetga foydalanish uchun yuklanadi. Mazkur metamatnli ma’lumot turli xil ilmiy muammolar uchun avtonom ravishda qo‘llanilishi ko‘zda tutilgan.
O‘zbek tili milliy korpusini yaratishda lingvistik axborotni tashuvchi matn razmetkasi SGML/XML tili negizida amalga oshiriladi va quyidagicha teglar bilan chegaralab olinadi: 75 va
76:
“
Nineteen fiftyfour,
when
I
was eighteen years old
,
...”77
SGML/XML tili/formati korpus razmetkasida foydalaniladigan aniq majmuani emas, balki lavha va atributlarning sintaktik topshiriqlarnigina bera oladi. “EAGLES (European Advisory Group on Language Engineering Standards), TEI (Text Encoding for Interchange), XCES (XML Corpus Encoding Standard)lar XML asosida ishlab chiqilgan”78. Xususan, EAGLES qoidalari korpuslarni yaratish va rasmiylashtirish, ularning morfosintaktik razmetkasi, shuningdek, alohida olingan vaziyatlarda razmetkalashning aniq yechimlariga doir umumiy tamoyillarini namoyon etadi. Shuningdek, mazkur tavsiyada lemmalash ham nazarda tutiladi, ammo lemmalashtirilgan korpuslar tanqisligi bois EAGLES da lemmalashtirish uchun teglar mavjud emas.
EAGLES morfologik razmetkani amalga oshirish va saqlashdan iborat ikki imkoniyatni beradi: har bir belgi alohida POS='NN' number='sing' atributi bilan taqdim etiladi yoki raqamlar belgilar bilan mutanosib keluvchi murakkab morfologik razmetka ishlatiladi. Masalan, “feats="V3011141101200" (3rd person, singular, finite, indicative, past tense, active, main verb, nonphrasal, nonreflexive)”79 fe’lni anglatadi. Ta’kidlash kerakki, tavsiya etiluvchi belgilar va ularga tegishli ma’nolarning ro‘yxati EAGLES tavsiyalarining bir qismi hisoblanadi. Lekin EAGLES tamoyillarida korpusni yaratishga oid elementlarning tayyor jamlanmasi mavjud emas.
Matnlarning lingvistik razmetkasi uchun nisbatan standart muvofiq keluvchi XCESning yaqin yillarda ISO TC37/SC4 xalqaro standartiga aylanish ehtimoli katta80. Gap shundaki, XCES lingvistik X razmetkalarining aqlli modellarini yaratish elementlarini ta’minlovchi metaabstrakt modelini taqdim etadi. Bu esa EAGLES qoidalariga81 to‘la muvofiq keladi. Buning uchun uzvlarining abstrakt teglari hamda ularning belgilari aniqlanadi. Har bir tugun uchun uning tipi, masalan, abzas, jumla, so‘z va morfemalar uchun p level, slevel, wlevel, mlevel beriladi. Bu, o‘z navbatida, kichik so‘zlar tahlilning bitta birligi sifatida taqdim etish imkonini beradi.
Mavjud korpuslarning ko‘pchiligi XCESning murakkab mexanizmidan foydalanmasdan, TEI teglar jamlanmasini qo‘llaydi. Vaholanki, TEI standarti lingvistik maqsadlar va razmetkalangan korpuslarni saqlashga mo‘ljallangan. Unga ko‘ra, qator korpuslarda so‘zlarni belgilash uchun tegi, gap qurilmalari uchun tegi, guruhlar uchun
tegi ishlatiladi82.
Xulosa shuki, lingvistik razmetkalar ham, ekstralingvistik razmetkalar ham xalqaro standartlarda chuqur ko‘rib chiqilgan, biz ularda ma’lumotlar ifodasining yagona formati ko‘p hollarda yagona dasturlashga imkon berishini va korpus bo‘yicha ma’lumot almashishga sharoit yaratishini kuzatamiz.
Do'stlaringiz bilan baham: |