I bob. Milliy korpus o‘zbek tilining elektron lingvistik manbasi sifatida


Dasturning foydalanuvchi grafik interfeysi



Download 121,47 Kb.
bet10/12
Sana10.03.2022
Hajmi121,47 Kb.
#488356
1   ...   4   5   6   7   8   9   10   11   12
Bog'liq
KIRISH

Dasturning foydalanuvchi grafik interfeysi (FGI) 34 nima? Dastur FGI RNR tilida web – ilova sifatida amalga oshirilgan bo‘lib, u bir so‘z shakllarini kiritish uchun zarur bo‘lgan muayyan matn maydonidan iborat shakl qidiruv boshlanishining tugmachasidan iborat.
Tanlangan qidiruv operatsiyalarida tarkibiy so‘z shakllarida nafaqat bunga kiruvchi shu shaklning yakka tartibdagi, balki uning murakkab so‘z shaklida paydo bo‘lishi ham izlanadi. Hozircha bu tarkibga uchtadan ortiq bo‘lmagan so‘zshakllari kiritilishiga ruxsat berilgan.
So‘rov urg‘u belgilarini qo‘llash orqali amalga oshirilishi mumkin ( «+» - asosiy urg‘u, «^» - qo‘shimcha urg‘u). Bunday holatda so‘z shakli aynan, ya’ni urg‘ular variantlarisiz shunday ko‘rinishda izlanadi35.
Qidiruv tamoyili nima? Hozirgi fayl tizimlari tez o‘qish uchun qulayliligi sababli matn bo‘yicha to‘g‘ridan to‘g‘ri qidiruv qo‘llaniladi. Chunki bunday sharoitda ma’lumotlar bazasidan kerakli matnlar lavhalarini saqlash nisbatan mehnattalab amallardan hisoblanadi. Shablonning topilgan qismiga iqtiboslarni keltirilmasligi sababli doimiy ifodalar qo‘llaniladigan amallar ham materiallarni tezkor qayta ishlashga imkon beradi. Demak, dastlabki matnlarning to‘liq ko‘rib chiqilishi amalga oshiriladi.
Natijalarni keltirib chiqarish texnologiyasi qanday amalga oshiriladi? Qidiruv qulay bo‘lishi uchun olingan konkordans varaqlarga bo‘linadi (har birida 20 matn bo‘ladi). Matnlarda so‘zshakllari paydo bo‘lishining takrorlanishiga oid ma’lumotlarni belgilash uchun matnga navigatsiya (yo‘naltiruvchi) elementlar kiritiladi. Bu o‘sha varaqqa iqtibosdan kelib chiqadigan nomer (raqam tartibi) bo‘ladi. Matnlarning o‘zi esa badiiy, dramatik, publitsistik va ilmiy-ommabop adabiyotlardan iborat kategoriyalarga bo‘linadi. Yanada qulay bo‘lishi uchun har bir kategoriya o‘zidan keyin keladiganiga nisbatan gorizontal chiziqlar bilan chegaralanadi36.
Dastur algoritmi37 nima? Ishdagi o‘zgarishlarni aniqlash va konstant (qayd etish):

  • ilgari shu so‘z shakli bo‘yicha so‘rov bo‘lganligi xususida foydalanuvchi izlanishi va tekshiruvi aniqlanadi. “A” ilovada so‘rov aks etgan tashqi varaq ko‘rinishi keltiriladi. Agar shunday amal amalga oshirilmasa, unda korpus matnlariga murojaat qilib bo‘lmaydi va oldingi natijaning birdan kaytib kelishi ro‘y beradi;

  • qidiruv shablonlarini yaratish amali quyidagicha bajariladi: Berilgan so‘z shakliga mos keluvchi variantlarni topish uchun doimiy ifodalardan foydalaniladi. Doimiy ifodalar bu shablon beradigan va qatorlar shaklida matnda uchraydigan shu shablonga to‘g‘ri keladigan lavhalardan foydalanish texnologiyasidir. «Shablon» intuitiv jihatdan tushunarli bo‘lishi kerak. Masalan, agar korrektli e-mail adres xususida o‘ylab ko‘rilsa, shunda ma’lum bo‘ladiki, bu raqamlar, harflar, ramzlar belgisi, keyin «@» ramzi, davomida esa shu bilan bog‘liq + «.» belgilari (server nomi) va oxirida aksariyat hollarda domen zonasini belgilovchi ikkita yoki uchta harflar (ru, com) qo‘yiladi. Endi shu so‘zlar izohlarini kompyuter tushunadigan shaklga keltirsak, uning natijasida shablon yuzaga keladi. Demak, doimiy ifodalar til qoidalari bo‘yicha korpus matnlariga mos keladiganlarini topish uchun shablon yaratiladi (masalan «*» ifodasi oldingi belgi nol va undan ortiq tarzda takrorlanishini bildiradi yoki «[abd]» yozuvi «a», «b», «d» harflari turlicha joylashgan satrlar izlanayotganligini ko‘rsatishga imkon beradi. Doimiy ifoda umumiy ko‘rinishda «/ifoda/» shaklida yoziladi. Agar slesh «/» belgisi ifoda ichida uchrasa, unda uning oldiga qaytuvchi belgi – teskari slesh «\» qo‘yiladi. Shu bilan birga doimiy so‘z ifodalarida ma’noli qismlarga ega bo‘lgan belgilarni, ya’ni «+» (oldingi belgi bir yoki ko‘p marta takrorlanishi mumkin), «*» (oldingi belgi nol yoki undan ko‘p takrorlanishi mumkin), «?» (oldingi belgi nol va bir marta takrorlanishi mumkin), «^» (satr boshlanishiga to‘g‘ri keladi) ekranizatsiya qilish (belgilar oldiga qaytuvchi sleshlarni qo‘yish) zarur bo‘ladi:

  • matnlarni ko‘rib chiqish va qidiruv natijalarini saqlab qolish;

  • qidiruv natijalarini umumlashtirish va so‘rov bayonnomasini yaratish: qaysi kun va soat nechada qaysi manzildan IP‑adres xususidagi ma’lumotlar so‘rovi bo‘lganligi, qanday so‘z shakli izlanganligi, qanday brouzer ishlatilganligi, qanday so‘z shakli izlanganligi va dramatik asarlar, badiiy adabiyotlar, publitsistik va ilmiy adabiyotlarga necha marta kirilganligi – murojaatlari, umuman, murojaatlardan qanchasi aniqlanganligi xususidagi ma’lumotlarni yoritish amallari bo‘lishi kerak. «B» ilovada so‘rov natijasini keltirib chiqarishni aks ettiruvchi tashqi varaq surati keltirilgan bo‘ladi38.

Korpus yaratishning texnologik jarayoni to‘g‘risida V.V. Rikov quyidagi asosiy talablarni sanab o‘tadi:

  1. Korpus foydalanuvchisi (yakka shaxs, guruh, lingvistik jamiyat).

  2. Korpus faoliyatidan ko‘zlagan mantiqiy maqsad.

  3. Korpus tuzishda ishlanadigan ma’lumotlar bazasi hajmi hamda buning real, zarurlik darajasi.

  4. Matndan foydalanish usuli (parcha, to‘liq ko‘rinish yoki har ikkisi)39.

Mualliflik korpusini yaratish bo‘yicha Sh.Hamroyeva korpus yaratishning texnologik jarayoni to‘g‘risida quyidagi taklifni beradi:

  1. Til materialini tadqiq etish.

  2. Matnni skanerlash.

  3. To‘liq shakllantirish, korpusni tuzish40.

Korpus yaratishning texnologik jarayoni xususida, chunonchi,“Rus tili milliy korpusi” matnlari ustida ish olib borgan olim S.Savchuk quyidagi jarayonga ajratadi:

  1. Matnlarni qayta kiritish.

  2. Elektron shaklda mavjud matnlardan foydalanish.

  3. Bosma matnni skanerlash (bunda ko‘plab orfografik xatoni tuzatish kerak bo‘ladi).

Bizningcha, O‘zbek tilining milliy korpusini yaratishning texnologik jarayoni quyidagi bosqichlar yoki qadamlar shaklida namoyish etilishi mumkin:

  1. manbalar ro‘yxatini aniqlash;

  2. matnlarni raqamlashtirish (kompyuter shakliga o‘tkazish)41.

Aytish kerakki, matnlarni kompyuterga kiritish oldinlari qiyin va ko‘p vaqt talab qilar edi, bugungi kunga kelib, bu muammo, hech bo‘lmaganda zamonaviy imlo zamonaviy matnlariga nisbatan juda oson hal qilinmoqda. Ushbu yengillik optik kirish (skanerlash) va matnni aniqlash va zamonaviy hayotni global kompyuterlashtirish, shu jumladan, matnni qayta ishlash bilan bog‘liq sohalarda erishilgan yutuqlarga asoslanadi. Korpuslarni yaratish uchun elektron shakldagi matnlarni turli xil usullar bilan kiritish mumkin. Chunonchi, qo‘lda kiritish, skanerlash, mualliflik nusxalari, sovg‘alar va birjalar, internet, muharrirlarga taqdim etilgan asl maketlar va boshqalar.
Mutaxassislar Y.N. Marchuk va I.A. Melchuk korpus tuzishning texnologik jarayonida quyidagi bosqichlarni ajratishadi:

  1. Belgilangan manbaga muvofiq holda matnning korpusga kirishini ta’minlash.

  2. Matnni avtomatik o‘qilish shaklida qayta ishlash.

Korpusga kiritiladigan elektron shakldagi matn turli usul bilan olingan bo‘lishi mumkin: qo‘lda kiritilgan, skanerlangan, mualliflik nusxasi, hadya, ayirboshlash, internet, nashriyotlar tomonidan korpus tuzuvchisiga beriladigan original-maketlar.

  1. Tahlil, matnga dastlabki ishlov berish. Ushbu bosqichda turli manbalardan qabul qilingan matnlar filologik tekshiruv, tahrirdan o‘tadi.

  2. Konversiyalash, grafematik tahlil. Ba’zi matnlar qayta kodlashtirish jarayoni amalga oshadigan ilk mashina ishlovidan qayta-qayta o‘tadi, nomatniy qismlar (rasm, jadval) o‘chiriladi yoki o‘zgartiriladi. Matndagi bo‘g‘in ko‘chirish, chegaralar (MS-DOS matnlarida) bekor qilinadi, tire va boshqa belgilar bir xilligiga erishiladi. Grafematik tahlil korpusga kiruvchi matnni qismga (so‘z, bog‘lovchi) ajratish, nomatniy elementni o‘chirish kabi amallarni bajarishdan iborat.

  3. Nostandart (noleksik) elementni belgilash, rasmiylashtirish, maxsus matniy elementni (qisqartma asosida yozilgan nom (ism, familiya), boshqa alifboda yozilgan o‘zlashma leksema, rasmga berilgan nom, izoh, zarvaraq, adabiyotlar ro‘yxati va b.) bir xil mezon asosida qayta ko‘rib chiqish. Albatta, bu amallar avtomatik ravishda matn muharriri tomonidan bajariladi.42.

Mutaxassislar Y.N. Marchuk va I.A. Melchuklar belgilagan texnologik jarayon bosqichlariga tayangan holda quyida o‘zbek tili milliy korpusining texnologik jarayon bosqichlarini taklif etamiz:

Download 121,47 Kb.

Do'stlaringiz bilan baham:
1   ...   4   5   6   7   8   9   10   11   12




Ma'lumotlar bazasi mualliflik huquqi bilan himoyalangan ©hozir.org 2024
ma'muriyatiga murojaat qiling

kiriting | ro'yxatdan o'tish
    Bosh sahifa
юртда тантана
Боғда битган
Бугун юртда
Эшитганлар жилманглар
Эшитмадим деманглар
битган бодомлар
Yangiariq tumani
qitish marakazi
Raqamli texnologiyalar
ilishida muhokamadan
tasdiqqa tavsiya
tavsiya etilgan
iqtisodiyot kafedrasi
steiermarkischen landesregierung
asarlaringizni yuboring
o'zingizning asarlaringizni
Iltimos faqat
faqat o'zingizning
steierm rkischen
landesregierung fachabteilung
rkischen landesregierung
hamshira loyihasi
loyihasi mavsum
faolyatining oqibatlari
asosiy adabiyotlar
fakulteti ahborot
ahborot havfsizligi
havfsizligi kafedrasi
fanidan bo’yicha
fakulteti iqtisodiyot
boshqaruv fakulteti
chiqarishda boshqaruv
ishlab chiqarishda
iqtisodiyot fakultet
multiservis tarmoqlari
fanidan asosiy
Uzbek fanidan
mavzulari potok
asosidagi multiservis
'aliyyil a'ziym
billahil 'aliyyil
illaa billahil
quvvata illaa
falah' deganida
Kompyuter savodxonligi
bo’yicha mustaqil
'alal falah'
Hayya 'alal
'alas soloh
Hayya 'alas
mavsum boyicha


yuklab olish