I bob. Milliy korpus o‘zbek tilining elektron lingvistik manbasi sifatida

Download 121,47 Kb.

bet	12/12
Sana	10.03.2022
Hajmi	121,47 Kb.
	#488356

1 ... 4 5 6 7 8 9 10 11 12

Bog'liq
KIRISH

66 Докучаев Д. Краткий экскурс в Perl-программирование. https://www.opennet.ru/docs/RUS/perl_help/

w lex = ‘leksema’ gr = ‘grammatik belgilar’ sem = ‘semantik belgilar’> so‘zw>
Atributlardagi grammatik va semantik belgilar gr va sem probel (oraliq), vergul va boshqa harf bo‘lmagan belgilar orqali ajratiladi. Morfologik tahlil variantlari «;» simvoli orqali ajratilib, bunda leg va gr atributlardagi variantlarni o‘tkazish tartibi mos keladi. Razmetkani o‘qiydigan foydalanuvchi uchun belgilarning tartibi va aniq ajratilishi juda muhim, qidiruv mashinasi uchun esa bu ahamiyatsiz, chunki barcha belgilar teng asosda indeksga tushadi.
Taklif etilgan format orqali leksik ma’lumotni kodlash barcha talablarga javob berib, eng optimal variantlardan biri desak ham mubolag‘a bo‘lmaydi. Mazkur format yetarli darajada ixcham hamda to‘liqlilik va kengayuvchanlik xususiyatlari borligi sababli yangi atributlarni qo‘shish imkoniyati mavjud. Format to‘liq ravshan, chunki dastlabki matn o‘zgarishsiz xotirada saqlanadi, barcha lingvistik ma’lumot esa atributlarda bekitiladi. Format HTML/XML qoidalariga moslashtirilgan va turli xil turdagi dasturlar, qidiruv indeksatori, morfologik parser, konvertorlar va tahrirlagichlar bilan tez kirisha olish xususiyatiga ega. Mazkur afzalliklarning barchasi korpusda razmetkani avtomatlashtirish uchun keng imkoniyatlarni ochib beradi.
2.3. Lingvistik korpus uchun matn tayyorlash texnologiyasi
“O‘zbek kompyuter lingvistikasi o‘zbek tilining boshqa tillardan, masalan, ingliz tilidan tamomila farq qiladigan xususiyatlari asosida shakllantiriladi. Bu esa o‘zbek kompyuter lingvistikasini yaratishdan oldin o‘zbek tilini mukammal darajada sistemalashtirish, formallashtirish vazifalarini amalga oshirish zaruriyati mavjudligini ko‘rsatadi. O‘zbek tili kabi boy, keng va chuqur rivojlangan til masalalarini kompyuterda yechish darajasiga olib chiqish ingliz tiliga qaraganda katta hajmda ish bajarishni talab qiladi”, deya ta’kidlaydi A.Po‘latov⁶². Olimning fikriga qo‘shilgan holda aytish mumkinki, o‘zbek kompyuter lingvistikasini yaratishda ingliz kompyuter lingvistikasidan to‘g‘ridan to‘g‘ri foydalanib bo‘lmasa ham, uning asosiy g‘oyalariga tayanish mumkin. Biz o‘zbek tilining til korpusini tuzishga mo‘ljallangan lingvistik baza va milliy matnlar banki tayyorlanishda rus tili Milliy korpusi bo‘yicha olib borilgan tadqiqot ishlariga murojaat qilamiz. Korpus uchun matnlar bankini tayyorlash juda muhim sanaladi. Korpus tarkibiga kiradigan matnlarni quyidagi turlarga bo‘lish mumkin:
1) bir necha yozuvchi asaridan olingan matnlar yoki alohida bitta muallif asaridan olingan matnlar;
2) ma’lum bir davrni yoki vaqtni o‘z ichiga qamrab olgan matnlar;
3) zamonaviy tor doiradagi mavzularga yo‘naltirilgan matnlar;
4) bugungi til va jamiyatni aks ettiruvchi zamonaviy matnlar⁶³.
Korpus uchun matnlarni tayyorlash jarayonida A.E.Polyakov⁶⁴ kuzatishlariga tayanamiz. Chunonchi,

HTML minimal formatda matnning ilk razmetkasi;
morfologik razmetka va omonimiya (korpus qismida)ning aniqlanishi;
metamatnli razmetka;
Yandeks-server uchun chiqish formatiga o‘zgartirish.

Har bir keyingi bosqichda avvalgiga nisbatan qo‘shimcha ma’lumotning hajmi va mazmuni har doim oshib boradi. Birinchi bosqichda uning rasmiy tuzilishi haqida ma’lumot kiritiladi, matn elementlarining turlari belgilanadi, bezash parametrlari va maxsus simvollar aniqlanadi. Ikkinchi bosqichda matnga lingvistik (morfologik) ma’lumot qo‘shiladi. Uchinchi bosqichda, metamatnli atributlar to‘plami ko‘rinishida matnning «pasport»i paydo bo‘ladi. Oxirgi bosqichda metamatnli ma’lumot matn bilan birlashadi va Yandeks-server yordamida indeksatsiyalanadi. Shundan so‘ng matn korpusning qismiga aylanib, qidiruv uchun yaroqli bo‘ladi.
Matnni tayyorlash turli bosqichlarida eng murakkab amallarni avtomatlashtirish va texnologik jarayonni qo‘llab-quvvatlash maqsadida dasturlar va usullar majmui ishlab chiqilgan. Ba’zi bir amallar (omonimiya bekor qilinishi, metarazmetka)ni avtomatlashtirib bo‘lmaydi, lekin ularni foydalanuvchi nazorati ostida avtomatlashtirilgan rejimda bajarish uchun qulay muhit yaratilib beriladi.
Avtomatlashtirish imkoniyati ma’lum bir darajada matn formatining turli bosqichlarida ifodalanishiga bog‘liq. Aynan shu jarayon barcha amallarni yagona texnologik zanjirga biriktirib, bir dasturning chiqish ma’lumotlari, keyingilar uchun kirish mu’lumotlar ko‘rinishida ifodalanadi. Bu jarayon uzilmay davom ettiriladi. Mazkur bog‘lam barcha bosqichlar uchun muhim. Texnologiyaning barcha bosqichlarida: oddiy matn, HTML razmetkasi kabi matn formatlari qo‘llaniladi. Matn formatlari murakkab va yopiq ikkilik formatlari (DOC, XLS, PDF)dan farqli ravishda, eng oddiy, tushunarli, universal hisoblanib, ko‘pgina dasturlar orqali qayta tayyorlanadi⁶⁵.
Texnologiyada Perl dasturlash⁶⁶ tili keng qo‘llaniladi. Perl dasturlash tili matnlarni qayta ishlash uchun mo‘ljallangan qudratli vositalarga ega. Ulardan: global qidiruv tizimi, doimiy ifodalarni almashtirish vositasi, dinamik ma’lumotlar (assotsiativ massivlar) strukturasi. Perl dasturlash tilida ko‘pgina servis dasturlar (konvertorlar, filtrlar, tekshiruv dasturlari) yozilgan bo‘lib, u «elim» vazifasini bajarib, barcha komponentlarni yagona zanjirga biriktirish vazifasini amalga oshiradi.
Milliy korpus uchun tanlangan matnning ilk razmetkasi uchun matnlar turli xil manbalardan olinadi va har xil formatlarda ifodalanadi: oddiy matn, HTML, RTF, PDF va b.q. Har bir kirish format uchun konvertorlar va makroslar to‘plami yaratiladi va ular yordamida dastlabki matn HTML ko‘rinishga o‘zgarartiriladi. Konvertorlar va makroslarda Perl va Winword ning imkoniyatlari: global qidiruv, doimiy ifodalarni almashtirish kabilar keng qo‘llaniladi.
O‘zbek tili milliy korpusini yaratishda qo‘llaniladigan dastlabki formatlarni ko‘rib chiqamiz:
1. Oddiy yoki umuman bezatilmagan matn (plain text⁶⁷).
Bu formatda abzaslar, odatda, boshlang‘ich probellar yordamida belgilanadi, so‘z perenos (so‘zni bo‘lib, keyingi satrga ko‘chirish (-)) belgilari, ko‘pincha saqlanadi, shriftli ajratishlar _ * simvollar orqali belgilanadi va h.k. HTMLga o‘tkazish jarayonida ortiqcha probellar, perenoslar olib tashlanadi va abzaslar
teglar bilan almashtiriladi, strukturali elementlar (sarlavha satri, she’rlar) belgilanadi, shrift buyruqlari qo‘shilib, faylning to‘g‘ri sarlavhasi yaratiladi. Bunday matnlar uchun konvertorlar va makroslar (global almashtirishlar) to‘plami ishlab chiqilgan bo‘lib, minimal HTML – razmetkani tezda qabul qilish imkoniyati mavjud.
2. Internetdan olingan HTML – razmetkali «boy» matn.
Mazkur matnlarning asosiy muammosi – matn mazmuniga umuman to‘g‘ri kelmaydigan, faqat bezak uchun ishlatiladigan ortiqcha razmetkaning katta hajmi. Bunga turli-tuman bannerlar, schetchiklar, skriptlar, navigatsion ssilkalar, menyu, jadvallar, ikonka(biror bir amalni bajaradigan belgi)lar kiradi. Ular har bir betda takrorlanib, 50-90% hajmni egallab turadi. Ba’zan ana shu «axlat» butun bir betni qoplab, matn mazmunini ilg‘ab olishda katta qiyinchiliklar tug‘diradi. Deyarli har bir sayt uchun matn mazmunini ajratib oluvchi maxsus filtr ishlab chiqish zarur, lekin shu filtrlardan keyin ham, foydalanuvchi ortiqcha razmetkani tuzatib, olib tashlashga to‘g‘ri keladi.

Winword (RTF) formati.

Mazkur format uchun makroslar va almashtirishlar to‘plami ishlab chiqilgan bo‘lib, yetarli darajada «boy» razmetkali HTMLga ega bo‘lish uchun mo‘ljallangan. Ushbu «boy» razmetka original bezaklarning (shritfli ajratishlar, maxsus simvollar, abzaslarning turli xillari, jadvallar va h.k.) asosiy qismini xotirada saqlash imkoniyatiga ega. Aslida, Winword ning mavjud bo‘lgan konvertorlari HTMLda murakkab va ortiqcha kodni keltirib chiqaradi va oqibatda ularni tozalab, kerakli ko‘rinishga keltirish ancha mushkullikni yuzaga keltiradi. Shuning uchun Winwordda joylashgan razmetkaning original variantidan foydalanib, samarali imkoniyatlardan foydalanish ma’qul. Demak, Winword ikkita funksiyada qo‘llaniladi: «boy» bezakli hujjatlarni tayyorlash tizimi va global almashtirishlar uchun oddiy matn muharriri sifatida.

Nashriyot tizimlarning formatlari va PDF.

Mazkur formatlar, standart formatlarga o‘tkazish: Winword (RTF) yoki oddiy matn, ya’ni konvertatsiyadan keyin qayta ishlanishi mumkin. Barchasi mavjud konvertorlarning xususiyatlari va imkoniyatlaridan kelib chiqqan holda amalga oshiriladi. Ko‘pgina dasturlar hujjatni yuqorida ko‘rsatilgan formatlarning birida xotirada saqlash imkoniyatini yaratib beradi, so‘ng Winword texnologiyasi bo‘yicha yoki oddiy matn ko‘rinishida qayta ishlanadi.

Matn formatida (CSV) ajratgichlar bilan jadvalli ma’lumotlar.

Ba’zi bir ma’lumotlar jadvallar ko‘rinishida ifodalanadi. Jadvallar esa, o‘z navbatida, metamatnli atributlar va matn(oddatda juda qisqa)dan iborat. Bunday ko‘rinishdagi ma’lumotlar uchun konvertor ishlab chiqilgan bo‘lib, tarkibida matn va metamatnli atributlar kerakli formatda ifodalanadi va qayerdaki o‘z o‘rnida HTML fayldagi jadvalning har bir satri generatsiyalanadi⁶⁸.
Matnni tayyorlash jarayonida undan muallifga tegishli bo‘lmagan yoki til o‘rganish uchun ahamiyatli bo‘lmagan elementlar olib tashlanadi, xususan:

sahifa raqamlari, ustun sarlavhalari;
titul sahifalar, mundarija, chiqish ma’lumotlar, tizimli yozuv, annotatsiyalar;
muharrir izohlari (muallif tomonidan yozilgan izohlar saqlanadi);
rasmlar, sxemalar, formulalar (lekin ular ostida imzolar saqlanadi);
raqamlarning uzun izchilligi (jadvallarda).

Agar boshlang‘ich fayl to‘plam ko‘rinishida ifodalansa, unda mundarijaga muvofiq alohida matnlarga ajratiladi. Muqaddima va sharhlar (mualliflik sharhlardan tashqari) oddiy matn ko‘rinishida rasmiylashtiriladi. Agar ular korpus uchun muhim bo‘lib hisoblanmasa, to‘g‘ridan to‘g‘ri olib tashlanadi.
Rasmiylashtirishning ko‘pgina elementlari soddalashtirilgan ko‘rinishda ifodalanadi, masalan, jadvallar jadval ko‘rinishida saqlanmaydi, abzas usullari faqat kerak bo‘lgan paytda ajratiladi, sarlavhalarning shrift bilan bezalishi umuman xotirada saqlanmaydi.
Servis dasturlarning katta to‘plamiga qaramay, boshlang‘ich razmetka juda murakkab amallardan biri sanaladi, chunki barcha qiyin ishlarni matnning aniq bir xususiyatlaridan kelib chiqqan holda foydalanuvchi o‘zi mustaqil ravishda bajarishi lozim. Birinchi bosqichda matn sifatining aniq darajasiga erishish shart, chunki keyinchalik matnni qayta ishlash imkoni yo‘qoladi.
Mutaxassislar tomonidan razmetka 2 turga ajratib izohlanadi⁶⁹. Jumladan, Sh.Hamroyevaning tadqiqot ishida ham rezametkaning 2 turi haqida fikr yuritilgan⁷⁰.
Ekstralingvistik razmetka yoki metarazmetka quyidagi xususiyatlarga ega bo‘ladi: matn formatining o‘ziga xosligini aks ettiruvchi (bob, xatboshi, qism va h.k.) va matn, uning muallifiga tegishli ma’lumotni ifodalovchi razmetka.
Ekstralingvistik razmetka quyidagi standartlarga amal qiladi:
“proyekt TEI (Text Encoding Initiative)”, “rekomendatsii EAGLES (Expert Advisory Group on Language Engineering Standards)”,”standart CES (Corpus Encoding Standard)”, “standart XCES (Corpus Encoding Standard for XML)”, “proyekt ISLE (International Standards for Language Engineering)”, “standart CDIF (Corpus Document Interchange Format, BNC)”⁷¹.
Bunday razmetkada muallif haqidagi ma’lumot nafaqat uning nomi, balki yoshi, jinsi, u yashagan yili kabi ma’lumotlarni ham o‘z ichiga oladi. Matn haqidagi ma’lumot o‘z ichiga: asar nomidan tashqari uning tili, yozilgan hamda nashr etilgan yilini ham qamrab oladi. Bunday razmetka tashqi intellektual ma’lumotlarni qamrab oluvchi, bibliografik, tipologik, tematik, sotsiologik tavsifni; shakliy-strukturaviy razmetka, texnik-texnologik razmetkalarni birlashtiruvchi razmetka hisoblanadi.
Lingvistik razmetka bir necha ko‘rinishlarga ega⁷². Lingvistik razmetka xususida batafsil to‘xtalib o‘tirmaymiz, ularning turlarini sanab o‘tish bilan chegaralanamiz. Chunki Sh.Hamroyeva va A.Eshmo‘minovlarning tadqiqot ishida ham lingvistik rezametkaning turi haqida atroflicha fikr yuritilgan⁷³. V.P.Zaxarov fikricha⁷⁴, lingvistik razmetkaning barcha (morfologik, sintaktik, semantik, anaforik, prosodik) turlari quyidagi tamoyillar asosida amalga oshiriladi:

razmetka sxemasini tavsiflash (asoslash);
umumiy lingvistik tushunchalar tizimini aniqlash;
foydalanuvchi uchun ma’lum bo‘lgan tahlil sxemasini shakllantirish;
razmetka sxemasining nazariy an’anaviyligiga erishish;
xalqaro andozalarga amal qilish.

Razmetkalashda Gramedit maxsus muharrirdan foydalaniladi. Mazkur muharrir avtonomsiz dastur bo‘lib, uning Winwordda o‘z moslashuv imkoniyatlari mavjud. Natijada, razmetkalash ilovasi o‘ziga tanish muhitga tushib, ushbu muharrirning barcha imkoniyatlaridan samarali foydalaniladi. Vizual ajratish maqsadida, matnning turli xil elementlari turli rang va uslublarda bezatiladi, xususan,
–razmetkaning tahlili va buyruqlar varianti yashirin matn ko‘rinishida rasmiylashtiriladi va, odatda, oddiy rejimda ko‘rinmaydi;
–so‘z shakllari tahlil variantining soniga qarab turli ranglar bilan rasmiylashtiriladi: nol, bir yoki bir necha.
Joriy so‘z shakllari uchun tahlil variantlari ro‘yxat ko‘rinishida beriladi, bunda to‘g‘ri variantni tanlab yoki mavjud bo‘lgan variantni tahrirlash lozim. Muharrir matn bo‘yicha bemalol ko‘chib yurish, shuningdek, global almashtirish va o‘zgartirishlarni amalga oshirish imkonini yaratib beradi.
Metamatnli atributlar matnlarda har xil vaziyatda yozib qo‘yiladi, shuning uchun 2 va 3 bosqichlar parallel yoki ixtiyoriy ravishda bajarilishi mumkin. Lekin matn identifikatsiyalangan va qayd etilgan fayl nomiga ega bo‘lishi shart. Bunda biror bir birikuv yoki fayl nomini o‘zgartirish kabi amallar bajarilmaydi, chunki bunday amallar butun bir tizim ishini buzib tashlashi aniq.
O‘zbek tili milliy korpusini yaratish uchun metama’lumotlarni saqlash maqsadida oldindan belgilangan tuzilish bo‘yicha oddiy Excel jadvallaridan foydalaniladi, bunda birinchi ustunda fayl nomi (aniq ko‘rsatilgan yo‘l), boshqa ustunlarda esa metamatnli atributlar va texnologik ma’lumot keltiriladi. Mazkur amal Excel dasturining o‘rnatilgan vositalaridan samarali foydalanish imkonini beradi va qidiruv tizimida ancha qulayliklar tug‘diradi. Masalan, qidiruv, filtratsiya, tahlil va ma’lumotlarni qayta ishlash (amallar ro‘yxati, avtoto‘ldirish, statistika). Bunda jadvallar matn formatida saqlanishi lozim va bu formatni Excel tushunishi shart. Mazkur amal orqali jadval ko‘rinishda saqlangan fayl, nafaqat Excel, balki boshqa jadvalli dasturlar qabul qilishi va ishlash imkoniyatining samaradorligini oshirish imkoniyatini beradi.
Nazariy jihatdan metama’lumot har bir matndan alohida holda saqlanishi mumkin, lekin HTML qoidalariga, asosan, ma’lumot fayl sarlavhasida saqlanishi kerak, shundagina Yandeks-server ma’lumotni indeksatsiya qilish imkoniyatiga ega bo‘ladi. Metama’lumotni alohida xotirada saqlash paytida sinxronizatsiya, meta-jadvallar va matnlarning bir-biri bilan o‘zaro kelishuvi muammosi doimo kelib chiqadi. Bunday muammoni hal qilish maqsadida quyidagi o‘zbek tili milliy korpusi dasturlar majmui ishlab chiqilgan:

Metas dasturi fayl sarlavhalaridan metamatnli atributlarni yig‘ib, meta-jadval sarlavhasini yaratadi va Excel muhitida qo‘l yordamida o‘zgartirib chiqiladi. Hamma gap shundaki, ilk qayta ishlash bosqichidayoq matnga ma’lum bir metama’lumot kiritilishi mumkin, masalan, muallif nomi, sarlavha va yaratilish sanasi. Oxirgi bosqichda esa Metas.bat dasturi barcha atributlarni yig‘ib, oxirgi tekshiruv bosqichini yana bir bor takrorlab berish imkonini yaratadi.
Meta2txt dasturi metamatnli atributlarni tuzatilgan meta-jadvallardan olib, mavjud bo‘lgan matnlarga o‘tkazadi. Ushbu dastur fayl mavjudligini tekshirib, sarlavhani yangilab turadi. Jadvallarda atributlarning ko‘pchilik amallari “ ” simvoli orqali bo‘linadi. Matn o‘zgartirilganda esa har bir amal alohida atribut ko‘rinishiga keladi. Vaholanki, metamatnli atributlar matnlar va meta-jadvallar orasida erkin harakatlanishi mumkin. Metarazmetka esa tekshiruvning bir necha sikllari bilan interaktiv bajarilishi mumkin.
MetaTest dasturi meta-jadvalning xatosizligi tekshirib beradi. Bunda normativ jadvalda atribut amallari shablonlarda ko‘rsatilgan amallar bilan qiyoslanadi. Dasturda noto‘g‘ri amallar “#” simvoli bilan belgilanadi, shuningdek, qo‘l yordamida tekshiriladi va tuzatiladi.

Yuqorida barcha ko‘rsatilgan dasturlar Perl tilida amalga oshiriladi.
Natijaviy tekshiruv oxirida metamatnli ma’lumot belgilangan matn bilan birlashtiriladi va yagona ma’lumotli birlik ko‘rinishiga keltirib, internetga foydalanish uchun yuklanadi. Mazkur metamatnli ma’lumot turli xil ilmiy muammolar uchun avtonom ravishda qo‘llanilishi ko‘zda tutilgan.
O‘zbek tili milliy korpusini yaratishda lingvistik axborotni tashuvchi matn razmetkasi SGML/XML tili negizida amalga oshiriladi va quyidagicha teglar bilan chegaralab olinadi: ⁷⁵ va
⁷⁶:
“
Nineteen fiftyfour,
when

was eighteen years old

,
...”⁷⁷
SGML/XML tili/formati korpus razmetkasida foydalaniladigan aniq majmuani emas, balki lavha va atributlarning sintaktik topshiriqlarnigina bera oladi. “EAGLES (European Advisory Group on Language Engineering Standards), TEI (Text Encoding for Interchange), XCES (XML Corpus Encoding Standard)lar XML asosida ishlab chiqilgan”⁷⁸. Xususan, EAGLES qoidalari korpuslarni yaratish va rasmiylashtirish, ularning morfosintaktik razmetkasi, shuningdek, alohida olingan vaziyatlarda razmetkalashning aniq yechimlariga doir umumiy tamoyillarini namoyon etadi. Shuningdek, mazkur tavsiyada lemmalash ham nazarda tutiladi, ammo lemmalashtirilgan korpuslar tanqisligi bois EAGLES da lemmalashtirish uchun teglar mavjud emas.
EAGLES morfologik razmetkani amalga oshirish va saqlashdan iborat ikki imkoniyatni beradi: har bir belgi alohida POS='NN' number='sing' atributi bilan taqdim etiladi yoki raqamlar belgilar bilan mutanosib keluvchi murakkab morfologik razmetka ishlatiladi. Masalan, “feats="V3011141101200" (3rd person, singular, finite, indicative, past tense, active, main verb, nonphrasal, nonreflexive)”⁷⁹ fe’lni anglatadi. Ta’kidlash kerakki, tavsiya etiluvchi belgilar va ularga tegishli ma’nolarning ro‘yxati EAGLES tavsiyalarining bir qismi hisoblanadi. Lekin EAGLES tamoyillarida korpusni yaratishga oid elementlarning tayyor jamlanmasi mavjud emas.
Matnlarning lingvistik razmetkasi uchun nisbatan standart muvofiq keluvchi XCESning yaqin yillarda ISO TC37/SC4 xalqaro standartiga aylanish ehtimoli katta⁸⁰. Gap shundaki, XCES lingvistik X razmetkalarining aqlli modellarini yaratish elementlarini ta’minlovchi metaabstrakt modelini taqdim etadi. Bu esa EAGLES qoidalariga⁸¹ to‘la muvofiq keladi. Buning uchun uzvlarining abstrakt teglari hamda ularning belgilari aniqlanadi. Har bir tugun uchun uning tipi, masalan, abzas, jumla, so‘z va morfemalar uchun p level, slevel, wlevel, mlevel beriladi. Bu, o‘z navbatida, kichik so‘zlar tahlilning bitta birligi sifatida taqdim etish imkonini beradi.
Mavjud korpuslarning ko‘pchiligi XCESning murakkab mexanizmidan foydalanmasdan, TEI teglar jamlanmasini qo‘llaydi. Vaholanki, TEI standarti lingvistik maqsadlar va razmetkalangan korpuslarni saqlashga mo‘ljallangan. Unga ko‘ra, qator korpuslarda so‘zlarni belgilash uchun tegi, gap qurilmalari uchun tegi, guruhlar uchun
tegi ishlatiladi⁸².
Xulosa shuki, lingvistik razmetkalar ham, ekstralingvistik razmetkalar ham xalqaro standartlarda chuqur ko‘rib chiqilgan, biz ularda ma’lumotlar ifodasining yagona formati ko‘p hollarda yagona dasturlashga imkon berishini va korpus bo‘yicha ma’lumot almashishga sharoit yaratishini kuzatamiz.

1O‘zbekiston Respublikasi Prezidentining «Mamlakatimizda o‘zbek tilini yanada rivojlantirish va til siyosatini takomillashtirish chora-tadbirlari to‘g‘risida»gi Farmoni. Manba:// https://lex.uz/docs/5058351

2 Сhоmskу N., The logical basis for linguistic theory, Proc. IXth Int. Cong, of Linguists, 1962; Leech G. The State of Art in Corpus Linguistics // English Corpus Linguistics / Aimer K., Altenberg K.(eds.) – London, 1991. – P. 8-29.; Блумфилд Л. Язык. – М.: «Прогресс», 1968. – 608 с.; Fries Ch.C. The structure of English. An introduction to the construction of English sentences. – L.,1969.; Bongers H. The history and principles of Vocabulary control. – Woerden: WOCOPI, 1947; Френсис Н., Кучера Г. Вычислительный анализ современного американского варианта английского языка. – М., 1967.; Синклер Д. Предисловие к книге «Как использовать корпуса в преподавании иностранного языка»/ Д.Синклер [Электронный ресурс]. – Режим доступа: http://www/ruscorpora.ru/corpora-infro.html, свободный; Charlez Meyer English corpus linguistics: An introduction. Cambridge University Press, 2004. 168 p.; Mohamed Zakaria Kurdi. Natural Language Processing and Computational Linguistics: Speech, Morphology and Syntax, Great Britain, USA: Wiley-ISTE, 2016, 300 р.

3 Бритвин В.Г. Прикладное моделирование синтагматической семантики научно-технического текста (на примере автоматического индексирования). КД.- М.: МГУ, 1983; Мельчук И.А. Порядок слов при автоматическом синтезе русского слова (предварительные сообщения) // Научно –техническая информация. 1985, №12. – С.12-36.; Захаров В.П. Корпусная лингвистика: учебник для студентов гуманитарных вузов. – Иркутск, 2011. – 161 с.; Кутузов А.Б. Корпусная лингвистика. – [Электрон ресурс]: Лицензия Creative commons Attribution Share-Alike 3.0 Unported [Электрон ресурс] – //lab314.brsu.by/kmp-lite/kmp-video/CL/CorporeLingva.pdf; Котов Р.Г. Лингвистические аспекты автоматизированных систем управления. – Москва: Наука, 1977.; Беляева Л.И., Чижаковский В.А. Тезаурус в системах автоматической переработки текста. – Кишинев, 1983.; Недошивина Е.В. Программы для работы с корпусами текстов: обзор основных корпусных менежеров. Учебно-методическое пособие. – Санкт-Петербург. − 2006. 26 с.; Рыков В.В. Курс лекций по корпусной лингвистике. URL: http://rykov-cl.narod.ru/c.html;Плунгян В. Зачем мы делаем Национальный корпус русского языка? [Электрон ресурс] «Отечественные записки» 2005, –№2. http://magazines. russ.ru/oz/ 2005/2/2005_2_20-pr.html

4 Кутузов А.Б. Курс «Корпусная лингвистика». – Москва, 2008. – 26 с.

5 Сhоmskу N., The logical basis for linguistic theory, Proc. IXth Int. Cong, of Linguists, 1962; Leech G. The State of Art in Corpus Linguistics // English Corpus Linguistics / Aimer K., Altenberg K.(eds.) – London, 1991. – P. 8-29.; Блумфилд Л. Язык. – М.: «Прогресс», 1968. – 608 с.; Fries Ch.C. The structure of English. An introduction to the construction of English sentences. – L.,1969.; Bongers H. The history and principles of Vocabulary control. – Woerden: WOCOPI, 1947; Френсис Н., Кучера Г. Вычислительный анализ современного американского варианта английского языка. – М., 1967.; Синклер Д. Предисловие к книге «Как использовать корпуса в преподавании иностранного языка»/ Д.Синклер [Электронный ресурс]. – Режим доступа: http://www/ruscorpora.ru/corpora-infro.html, свободный; Charlez Meyer English corpus linguistics: An introduction. Cambridge University Press, 2004. 168 p.; Mohamed Zakaria Kurdi. Natural Language Processing and Computational Linguistics: Speech, Morphology and Syntax, Great Britain, USA: Wiley-ISTE, 2016, 300 р.

6 Захаров В.П. Корпусная лингвистика: учебник для студентов гуманитарных вузов. – Иркутск, 2011. – 161 с.

7 Бритвин В.Г. Прикладное моделирование синтагматической семантики научно-технического текста (на примере автоматического индексирования). КД.- М.: МГУ, 1983; Мельчук И.А. Порядок слов при автоматическом синтезе русского слова (предварительные сообщения) // Научно –техническая информация. 1985, №12. – С.12-36.; Захаров В.П. Корпусная лингвистика: учебник для студентов гуманитарных вузов. – Иркутск, 2011. – 161 с.; Кутузов А.Б. Корпусная лингвистика. – [Электрон ресурс]: Лицензия Creative commons Attribution Share-Alike 3.0 Unported [Электрон ресурс] – //lab314.brsu.by/kmp-lite/kmp-video/CL/CorporeLingva.pdf; Котов Р.Г. Лингвистические аспекты автоматизированных систем управления. – Москва: Наука, 1977.; Беляева Л.И., Чижаковский В.А. Тезаурус в системах автоматической переработки текста. – Кишинев, 1983.; Недошивина Е.В. Программы для работы с корпусами текстов: обзор основных корпусных менежеров. Учебно-методическое пособие. – Санкт-Петербург. − 2006. 26 с.; Рыков В.В. Курс лекций по корпусной лингвистике. URL: http://rykov-cl.narod.ru/c.html;Плунгян В. Зачем мы делаем Национальный корпус русского языка? [Электрон ресурс] «Отечественные записки» 2005, –№2. http://magazines. russ.ru/oz/ 2005/2/2005_2_20-pr.html

8 Пўлатов, А. Қ. Компьютер лингвистикаси /Масъул муҳаррирлар: А.А.Абдуазизов, М.М.Орипов. – Т.: Akademnashr, 2011. – 520 б. –Б. 7.

9 Ҳамроева Ш. Ўзбек тили муаллифлик корпусини тузишнинг лингвистик асослари: Филол.фан.бўйича фалсафа доктори (PhD)…дис. афтореф. – Тошкент, 2018.

10 Эшмуминов А. Ўзбек тили миллий корпусининг синоним сўзлар базаси. Филол.фан.бўйича фалсафа доктори (PhD)…дис.. – Тошкент, 2019.–Б.50-51.

11 Mengliyev B., Bobojonov S., Hamroyeva Sh. O‘zbek tili milliy korpusi. 2018-yil, 26-aprel, http://marifat.uz/marifat/ruknlar/fan/1241.htm

12 O‘.Xoliyorov. O‘zbek tili ta’limiy korpusini tuzishning lingvistik asoslari. Filol.fan.bo‘yicha falsafa doktori (PhD)…dis. avtoref. –Termiz, 2021. – 52-b.

13 https://lex.uz/docs/3338600

14O‘zbekiston Respublikasi Prezidentining farmoyishi. 12.01.2017. № F-4789 http://lex.uz/ docs/3338600

15 http://www.lex.uz/mobileact/1832483

16 Ўзбекистонда бепул электрон кутубхона. https://www.slideshare.net/xushnudjohn/ss-84174531

17 Hamroyeva Sh. O‘zbek tili mualliflik korpusini tuzishning lingvistik asoslari: Filol.fan.bo‘yicha falsafa doktori (PhD)…dis. avtoref. – Toshkent, 2018.

18 Менглев Б. Она тили ўладими? /2019 йил 31 октябрь/ http://uza.uz/oz/culture/bakhtiyer-menglievga-savol

19 Ona tili. Umumiy o‘rta ta’lim maktablarining 8-sinf o‘quvchilari uchun darslik. -Toshkent. 2019, 31-b.

20 Mengliyev B. O‘zbek tili yashab qoladimi?/ https://minbar.uz/post/ozbek-tili-oldida-katta-xavf-bor-qaysi-tilshunos-baxtiyor-mengliev-tahlil-qiladi.

21Hamroyeva Sh. O‘zbek tili mualliflik korpusini tuzishning lingvistik asoslari: Filol.fan.bo‘yicha falsafa doktori (PhD)…dis. avtoref. – Toshkent, 2018. – 52-b.; Eshmuminov A. O‘zbek tili milliy korpusining sinonim so‘zlar bazasi: Filol.fan.bo‘yicha falsafa doktori (PhD)…dis.. – Toshkent, 2019.– 49-b.

22 Muhammedova S., Abdurahmonova N. O‘zbek tilini dunyoga olib chiqish zarurati// “Ma’rifat” gazetasi.– 2018-yil 18-iyun./ http://marifat.uz/marifat/ruknlar/rasmiy/1375.htm.

23 Muhammedova S., Abdurahmonova N. O‘zbek tilini dunyoga olib chiqish zarurati // “Ma’rifat” gazetasi.– 2018-yil 18-iyun. /http://marifat.uz/marifat/ruknlar/rasmiy/1375.htm.

24 Qarang: www.ruscorpora.ru// Плунгян В. Зачем мы делаем корпусы?

25 Hamroyeva Sh. O‘zbek tili mualliflik korpusini tuzishning lingvistik asoslari: Filol.fan.bo‘yicha falsafa doktori (PhD)…dis. avtoref. – Toshkent, 2018. –52-b.

26 Abdurahmonova N.Z. Inglizcha matnlarni o‘zbek tiliga tarjima qilish dasturining lingvistik ta’minoti (sodda gaplar misolida): Filol.fan.bo‘yicha falsafa doktori (PhD)…dis. avtoref. – Toshkent, 2018.– 49-b.; Hamroyeva Sh. O‘zbek tili mualliflik korpusini tuzishning lingvistik asoslari: Filol.fan.bo‘yicha falsafa doktori (PhD)…dis. avtoref. – Qarshi, 2018. – 52-b.; Abjalova M. O‘zbek tilidagi matnlarni tahrir va tahlil qiluvchi dasturning lingvistik modullari (rasmiy va ilmiy uslubdagi matnlar tahriri dasturi uchun): Filol.fan.bo‘yicha falsafa doktori (PhD)…dis. avtoref. – Farg‘ona, 2019.– 49-b.; Eshmo‘minov A. O‘zbek tili milliy korpusining sinonim so‘zlar bazasi: Filol.fan.bo‘yicha falsafa doktori (PhD)…dis.avtoref. – Qarshi, 2019.– 45-b.

27 Аброскин А. А. Поиск по корпусу: проблемы и методы их решения // Национальный корпус русского языка. Нестор-История, 2009. –277–282 с.; ПоляковА.Е. Технология подготовки информации в национальном корпусе русского языка. http://www.ruscorpora.ru/ new/corpora-biblio.html; Кустова Г. И., Ляшевская О. Н., Падучева Е. В., Рахилина Е. В. Семантическая разметка лексики в Национальном корпусе русского языка: принципы, проблемы, перспективы. –М., 2005.– С.155–174.

28 Кустова Г. И., Ляшевская О. Н., Падучева Е. В., Рахилина Е. В. Семантическая разметка лексики в Национальном корпусе русского языка: принципы, проблемы, перспективы // Национальный корпус русского языка. – М., 2005.– С.155–174.

29 Аброскин А. А. Проблемы и методы их решения // Национальный корпус русского языка. Нестор-История, 2009.– С.277–282.

30 Поляков А.Е. Технология подготовки информации в национальном корпусе русского языка. http://www.ruscorpora.ru/ new/corpora-biblio.html;

31 Корпусные исследования по русской грамматике. – М.: Пробел, 2009. – 516 с.

32 Рахилина Е. В. Корпус как творческий проект // Национальный корпус русского языка. Нестор-История, 2009.– С.7–26.

33 Плунгян В. А., Резникова Т. И., Сичинава Д. В. Национальный корпус русского языка: общая характеристика - 2005, № 2. – С.9–13.

34 https://www.programmersforum.ru/showthread.php?t=121222; https://ru.wikipedia.org/wiki/Delphi;

35Рычкова, Л.В. Корпусные технологии как основа инновационной педагогики в русистике / Л.В. Рычкова // Русский язык и литература в пространстве мировой культуры: Материалы XIII Конгресса МАПРЯЛ (г. Гранада, Испания, 13–20 сентября 2015 года) / Ред. кол.: Л. А. Вербицкая, К. А. Рогова, Т. И. Попова и др. — В 15 т. — Т. 10. — СПб.: МАПРЯЛ, 2015. — С 904-908.

36 Станкевич, А. Ю. Технология сбора и систематизации электронного контента для корпуса русскоязычных СМИ. -2014. – Ч. 2. – С. 6–10.; Поляков А.Е. Технология подготовки информации в национальном корпусе русского языка. http://www.ruscorpora.ru/ new/corpora-biblio.html

37 Игошин В. И. Математическая логика и теория алгоритмов. – 2-е изд., стер.– М.: ИЦ «Академия», 2008. –448 с.; Po‘latov A., Muhammedova S. Kompyuter lingvistikasi (o‘quv qo‘llanma). – Т., 2014.; Семёнов А. Алгоритм. Большая российская энциклопедия. Электронная версия (2016).; Abjalova M., Toshimov R. Matnlarni lingvistik tahrirlashning psixologik asoslari // O‘zbekistonning mustaqil taraqqiyot va ijtimoiy-falsafiy tafakkur yangilanishi. Yosh olimlar ilmiy konferensiyasi materiallari, II qism. – Toshkent, 2011. – 155-158-betlar.

38 Большакова Е.И., Клышинский Э.С., Ландэ Д.В., Носков А.А., Пескова О.В., Ягунова Е.В. Автоматическая обработка текстов на естественном языке и компьютерная лингвистика. Учебное пособие. – Москва: МИЭМ, 2011. – 272 с.

39 Рыков В.В. Курс лекций по корпусной лингвистике. URL: http://rykov-cl.narod.ru/c.html.

40 Hamroyeva Sh. O‘zbek tili mualliflik korpusini tuzishning lingvistik asoslari. Filol.fan.bo‘yicha falsafa doktori (PhD)…disser.– Qarshi, 2018. – 45-b.

41 Toirova G. Milliy korpus yaratishning texnologik jarayoni xususida. //O‘zbekistonda xorijiy tillar. Elektron ilmiy-metodik jurnal. – Toshkent. 2020, –№ 2 (31), – 57– 64-b.

42Qarang: http://www.unikoeln.de/philfak/englisch/bald/corpora.; https://core.ac.uk/ download/pdf/7 6000006.pdf.; Марчук Ю.Н. Основы компьютерной лингвистики. - М.: Изд-во МПУ, 2000.; Мельчук И.А. Порядок слов при автоматическом синтезе русского слова (предварительные сообщении) / Научно-техническая информация. 1985, № 12. – С.12-36.

43 Лавров Д.Н., Харламова М.А., Костюшина Е.А. Модель представления экстралингвистической и тематической разметки в корпусе народной речи // У1-я Междунар. науч. конф. «Математическое и компьютерное моделирование», посвящ. памяти проф. Б.А. Рогозина. 23 ноября 2018. –С. 115-118.; http://ruscorpora.ru/new/sbornik2005/11polyakov.pdf

44 Курс “Корпусная лингвистика” (А.Б. Кутузов) Лицензия Creative commons Attribution Share-Alike 3.0 Unported; Захаров В.П., Богданова С.Ю. Корпусная лингвистика: учебник для студентов гуманитарных вузов. – Иркутск: ИГЛУ, 2011. – С. 25. (161с.); Сичинава Д. В. Обработка текстов с грамматической разметкой: инструкция разметчика Национальный корпус русского языка: 2003-2005. Результаты и перспективы. — М., 2005.–С. 136–154.; Hamroyeva Sh. O‘zbek tili mualliflik korpusini tuzishning lingvistik asoslari: Filol.fan.bo‘yicha falsafa doktori (PhD)…disser.– Qarshi, 2018. – 65-b.; Eshmurodov A. O‘zbek tili milliy korpusining sinonim so‘zlar bazasi: Filol.fan.bo‘yicha falsafa doktori (PhD)…dis.avtoref. – Qarshi, 2019. – 55-b.

45 Рахилина Е. В., Кустова Г. И., Ляшевская О. Н., Резникова Т. И., Шеманаева О. Ю. Задачи и принципы семантической разметки лексики в НКРЯ Национальный корпус русского языка: 2006–2008. Новые результаты и перспективы. СПб.: Нестор-История, 2009.–С. 215–239.

46 https://tei-c.org/ Инициатива кодирования текста

47 http://xml.coverpages.org/xces.html стандарт кодирования корпусов для XML

48 http://www.ilc.cnr.it/EAGLES/intro.html Консультативная группа экспертов по стандартам языковой инженерии

49 http://ruscorpora.ru/new/sbornik2005/11polyakov.pdf

50 Qarang: Курс «Корпусная лингвистика» (А.Б. Кутузов) Лицензия Creative commons Attribution Share-Alike 3.0 Unported; Hamroyeva Sh. O‘zbek tili mualliflik korpusini tuzishning lingvistik asoslari: Filol.fan.bo‘yicha falsafa doktori (PhD)…disser.– Qarshi, 2018. – 49-b.

51 Поляков, А. Е. Технология подготовки информации в Национальном корпусе русского языка Текст. / А.Е. Поляков // Национальный корпус русского языка: 2003-2005. Результаты и перспективы. –М., 2005. – С. 192.

52 http://www.philol.msu.ru/~lex/corpus/instruction.html

53 Eshmo‘minov A. O‘zbek tili milliy korpusining sinonim so‘zlar bazasi: Filol.fan.bo‘yicha falsafa doktori (PhD)…dis. avtoref. – Qarshi, 2019.– 58-b.

54 Поляков, А. Е. Технология подготовки информации в Национальном корпусе русского языка. –М., 2005. – С. 192.

55 Поляков А. Е. Технология подготовки информации в Национальном корпусе русского языка. –М., 2005. –С. 192.

56 Поляков А. Е. Технология подготовки информации в Национальном корпусе русского языка–М., 2005. –С. 192.

57 Плунгян В.А., Резникова Т.И., Сичинава Д.В. Национальный корпус русского языка: общая характеристика 2005. –№ 3. –С. 9-13.

58 Плунгян В.А. Корпус как инструмент и как идеология. –Москва, 19-20 апреля 2007 г. – Режим доступа: http://new.hse.ru/sites/confrus lang.

59 Поляков А. Е. Технология подготовки информации в Национальном корпусе русского языка –М., 2005. – С. 192.

60 Захаров В.П. Корпусная лингвистика: Учебно-методеческое пособие. 2005. – 48 с.

61 Поляков А. Е. Технология подготовки информации в Национальном корпусе русского языка – М., 2005. – С. 192.

62 Po‘latov A.Q. Kompyuter lingvistikasi /Mas’ul muharrirlar: A.A.Abduazizov, M.M.Oripov. – T.: Akademnashr, 2011. – 520-b.

63 Захаров В.П. Корпусная лингвистика. Учебно-методическое пособие. – Санкт-Петербург, 2005. – 48 с.

64 Поляков А. Е. Технология подготовки информации в Национальном корпусе русского языка– М., 2005. –С. 192.

65 Поляков А. Е. Технология подготовки информации в Национальном корпусе русского языка – М., 2005. – С. 102.

66 Докучаев Д. Краткий экскурс в Perl-программирование. https://www.opennet.ru/docs/RUS/perl_help/

67 Американский национальный институт стандартов (ANSI).Обработка информации – текст и офисные системы - стандартный язык разметки (SGML). ISO 8879-1986 (E) . Нью-Йорк: ANSI, 1986.

68 Ассоциация американских издателей.Авторское руководство по подготовке и разметке электронных рукописей. Серия электронных рукописей. Вашингтон, округ Колумбия: AAP, май 1986 г.

69 Поляков А. Е. Технология подготовки информации в Национальном корпусе русского языка. –М., 2005. –С.187.; Энциклопедия: фонд знаний «Ломоносов» http://www.lomonosov-fund.ru/enc/ru/ encyclopedia:0127221;

70 Hamroyeva Sh. O‘sha asar. 2018,– 68-b.

71 https://slideplayer.com/slide/4812155/

72 Энциклопедия: фонд знаний «Ломоносов» http://www.lomonosov-fund.ru/enc/ru/encyclopedia:0127221;

73 Hamroyeva Sh. O‘zbek tili mualliflik korpusini tuzishning lingvistik asoslari. Filol.fan.bo‘yicha falsafa doktori (PhD)…dis. – Qarshi, 2018, – 68-b. ; Eshmo‘minov A. O‘zbek tili milliy korpusining sinonimso‘zlar bazasi: Filol.fan.bo‘yicha falsafa doktori (PhD)…dis. avtoref. – Qarshi, 2019.– 55-b.

74 Захаров В.П., Богданова С.Ю. Корпусная лингвистика: учебник для студентов гуманитарных вузов. – Иркутск, 2011. –С. 45. – 161 с.

75 https://www.tei-c.org/release/doc/tei-p5-doc/es/html/ref-cl.html

76 https://www.tei-c.org/release/doc/tei-p5-doc/es/html/examples-phr.html;

77Ide, N., Romary, L. Standards for language resources. In Proc. of Language Resources and Evaluation Conference (LREC02), May 2002. Las Palmas, Spain, 2002, p. 5965.

78 Захаров В.П. и.д.Моделирование в корпусной лингвистике. Специализированные корпусы русского языка.–СПб:С.-–Петерб. унив. 2019. –208 с.

79 http://otipl.philol.msu.ru/media/nti03draft.pdf

80Ide, N., Romary, L. Standards for language resources. In Proc. of Language Resources and Evaluation Conference (LREC02), May 2002. Las Palmas, Spain, 2002.– p. 59–65.

81EAGLES: Recommendations for the morphosyntactic annotation of corpora, EAGTCWGMAC/R. 1996. Available from ftp://ftp.ilc.pi.cnr.it/ pub/eagles/ corpora/annotate.ps.gz

82 Захаров В.П. и.д.Моделирование в корпусной лингвистике. Специализированные корпусы русского языка.–СПб:С.-Петерб. унив. 2019. – 208 с.

Download 121,47 Kb.

Do'stlaringiz bilan baham:

1 ... 4 5 6 7 8 9 10 11 12