Alisher Navoiy nomidagi Toshkent
davlat o‘zbek tili va adabiyoti
universiteti
“O‘ZBEK MILLIY VA TA’LIMIY
KORPUSLARINI YARATISHNING NAZARIY
HAMDA AMALIY MASALALARI”
Xalqaro ilmiy-amaliy konferensiya
Vol. 1
№. 01 (2021)
150
Semantik belgilash. Semantikaning yagona semantik nazariyasi mavjud emasligiga qaramay,
ko‘pincha semantik teglar ma’lum bir so‘z yoki ibora tegishli bo‘lgan semantik toifalarni va uning
ma’nosini ko‘rsatadigan tor subkategiyalarni belgilaydi;
Anaforik belgilar. Ma’lumot birikmalarini, masalan, olmoshlarni tuzatadi;
Prosodik belgilar. Prosodik korpuslarda yorliqlar stress va intonatsiyani tavsiflash uchun ishlatiladi.
Og‘zaki nutqning korpusida prozodik belgilashga tez-tez to‘xtash, takrorlash, sirpanish va hokazolarni
ko‘rsatishga xizmat qiladigan so‘zlashuv belgisi qo‘shiladi.
Korpusni yaratishning texnologik jarayoni quyidagi bosqichlar yoki bosqichlar ko‘rinishida
ifodalanishi mumkin.
1.
Manbalar ro‘yxatini aniqlash.
2.
Matnlarni raqamlashtirish (kompyuter shakliga o‘tkazish). Aytish kerakki, matnlarni
kompyuterga kiritish qancha vaqt oldin juda qiyin va ko‘p vaqt talab qilar edi, shuning uchun bugungi
kunda bu muammo, hech bo‘lmaganda zamonaviy matnlar va zamonaviy imloga nisbatan osonlikcha hal
qilinmoqda. Ushbu qulaylik optik kiritish (skanerlash) va matnni aniqlashdagi yutuqlarga asoslangan.
3.
Konversiya va grafik tahlil. Ba’zi matnlar, shuningdek, dastlabki qayta ishlashning bir yoki bir
necha bosqichlaridan o‘tadi, bu davrda har xil kodlash turlari (agar kerak bo‘lsa) amalga oshiriladi, matnli
bo‘lmagan elementlar (rasmlar, jadvallar) o‘chiriladi yoki o‘zgartiriladi, defislar, "qattiq chiziq uchlari"
matndan olib tashlanadi va bir xil imlo ta’minlanadi dash va hokazo. Qoida tariqasida ushbu operatsiyalar
avtomatik ravishda amalga oshiriladi. Odatda, xuddi shu bosqichda matn tarkibiy qismlarga bo‘linadi.
4.
Matnni belgilash. Matnni belgilash matnlar va ularning tarkibiy qismlariga qo‘shimcha
ma’lumot (metama’lumotlar) bog‘lashdan iborat. Korpus matnlarining meta-tavsifida mazmunli
ma’lumotlar elementlari (bibliografik ma’lumotlar, matnning janr va uslub xususiyatlarini tavsiflovchi
xususiyatlar, muallif haqidagi ma’lumotlar) va rasmiy (fayl nomi, kodlash parametrlari, belgilash tili
versiyasi, sahna ijrochilari) mavjud. Ushbu ma’lumotlar odatda qo‘lda kiritiladi. Hujjatning tarkibiy
tuzilishi (paragraflar, jumlalar, so‘zlarni ajratib ko‘rsatish) va haqiqiy lingvistik belgilash odatda
avtomatik ravishda amalga oshiriladi.
5.
Keyingi qadam avtomatik markirovka natijalarini tuzatish: xatolarni tuzatish va noaniqlikni
olib tashlash (qo‘lda yoki yarim avtomatik ravishda).
6.
Yakuniy bosqich - belgilangan matnlarni tezkor ko‘p o‘lchovli qidirish va statistik qayta
ishlashni ta’minlaydigan ixtisoslashgan lingvistik axborot qidirish tizimining (korpus menejeri) tarkibiga
aylantirish.
7.
Va nihoyat, muhofazaga kirishni ta’minlash. Ilova displey sinfida mavjud bo‘lishi mumkin,
CD-ROM-da tarqatilishi va keng tarmoq orqali ulanishi mumkin. Foydalanuvchilarning turli toifalariga
turli xil huquqlar va turli xil imkoniyatlar berilishi mumkin.
Albatta, har bir aniq holatda protseduralarning tarkibi va soni yuqorida sanab o‘tilganlardan farq
qilishi mumkin va haqiqiy texnologiya ancha murakkab bo‘lib chiqishi mumkin.
Darhaqiqat, korpus zamonaviy ma’noda har doim kompyuter ma’lumotlar bazasi bo‘lib, uni
yaratish jarayonida maxsus dasturlardan foydalanish tabiiydir. Ushbu dasturlar orasida avtomatik ravishda
bo‘linish dasturlari alohida o‘rin tutadi. Qo‘shimchalarni belgilash juda zerikarli operatsiya, ayniqsa
zamonaviy devorlarning o‘lchamlarini hisobga olgan holda. Belgilashning ba’zi turlari, xususan, anaforik,
prosodik uchun, avtomatik tizimlarni yaratish hali ham qiyin va ishlarning aksariyati qo‘lda bajarilgan
bo‘lsa, morfologik va sintaktik tahlil uchun odatda turli xil dasturiy vositalar mavjud bo‘lib, ular odatda
taggerlar va tahlilchilar deb nomlanadi. navbati bilan ... Avtomatik morfologik tahlil dasturlari natijasida
har bir leksik birlik uchun grammatik xususiyatlar, jumladan nutqning bir qismi, lemma (normal shakl) va
grammemalar to‘plami (masalan, jins, son, ish, jonli / jonsiz, vaqtinchalik va boshqalar). Avtomatik
sintaktik tahlil dasturlari ishi natijasida so‘zlar va iboralar orasidagi sintaktik bog‘lanishlar qayd etiladi va
tegishli xususiyatlar (gap turi, so‘z birikmasining sintaktik vazifasi va boshqalar) sintaktik birliklarga
tegishli.
Shu bilan birga, tabiiy tilni avtomatik tahlil qilish xatosiz va polisemantik emas, qoida tariqasida,
bitta leksik birlik (so‘z, ibora, jumla) uchun bir necha tahlil variantlarini taqdim etadi. Bunday holda,
kishi grammatik omonimiya haqida gapiradi. Umuman noaniqlikni (morfologik, sintaktik) olib tashlash
hisoblash lingvistikasining eng muhim va eng qiyin vazifalaridan biridir. Ajratish uchun holatlar
yaratishda avtomatik va qo‘lda ishlatiladigan usullardan foydalaniladi. Keyingi avlod korpuslari yuz
millionlab so‘zlarni o‘z ichiga oladi, shuning uchun inson aralashuvini minimallashtiradigan tizimlarni
Do'stlaringiz bilan baham: |