Alisher Navoiy nomidagi Toshkent davlat o‘zbek tili va adabiyoti universiteti



Download 7,21 Mb.
Pdf ko'rish
bet178/398
Sana26.02.2022
Hajmi7,21 Mb.
#467559
1   ...   174   175   176   177   178   179   180   181   ...   398
Bog'liq
Тайёр Миллий корпус тўплам 17.05

Alisher Navoiy nomidagi Toshkent 
davlat o‘zbek tili va adabiyoti 
universiteti 
“O‘ZBEK MILLIY VA TA’LIMIY 
KORPUSLARINI YARATISHNING NAZARIY 
HAMDA AMALIY MASALALARI”
Xalqaro ilmiy-amaliy konferensiya
Vol. 1
№. 01 (2021) 
150 

Semantik belgilash. Semantikaning yagona semantik nazariyasi mavjud emasligiga qaramay, 
ko‘pincha semantik teglar ma’lum bir so‘z yoki ibora tegishli bo‘lgan semantik toifalarni va uning 
ma’nosini ko‘rsatadigan tor subkategiyalarni belgilaydi; 

Anaforik belgilar. Ma’lumot birikmalarini, masalan, olmoshlarni tuzatadi; 

Prosodik belgilar. Prosodik korpuslarda yorliqlar stress va intonatsiyani tavsiflash uchun ishlatiladi. 
Og‘zaki nutqning korpusida prozodik belgilashga tez-tez to‘xtash, takrorlash, sirpanish va hokazolarni 
ko‘rsatishga xizmat qiladigan so‘zlashuv belgisi qo‘shiladi. 
Korpusni yaratishning texnologik jarayoni quyidagi bosqichlar yoki bosqichlar ko‘rinishida 
ifodalanishi mumkin. 
1.
Manbalar ro‘yxatini aniqlash. 
2.
Matnlarni raqamlashtirish (kompyuter shakliga o‘tkazish). Aytish kerakki, matnlarni 
kompyuterga kiritish qancha vaqt oldin juda qiyin va ko‘p vaqt talab qilar edi, shuning uchun bugungi 
kunda bu muammo, hech bo‘lmaganda zamonaviy matnlar va zamonaviy imloga nisbatan osonlikcha hal 
qilinmoqda. Ushbu qulaylik optik kiritish (skanerlash) va matnni aniqlashdagi yutuqlarga asoslangan. 
3.
Konversiya va grafik tahlil. Ba’zi matnlar, shuningdek, dastlabki qayta ishlashning bir yoki bir 
necha bosqichlaridan o‘tadi, bu davrda har xil kodlash turlari (agar kerak bo‘lsa) amalga oshiriladi, matnli 
bo‘lmagan elementlar (rasmlar, jadvallar) o‘chiriladi yoki o‘zgartiriladi, defislar, "qattiq chiziq uchlari" 
matndan olib tashlanadi va bir xil imlo ta’minlanadi dash va hokazo. Qoida tariqasida ushbu operatsiyalar 
avtomatik ravishda amalga oshiriladi. Odatda, xuddi shu bosqichda matn tarkibiy qismlarga bo‘linadi. 
4.
Matnni belgilash. Matnni belgilash matnlar va ularning tarkibiy qismlariga qo‘shimcha 
ma’lumot (metama’lumotlar) bog‘lashdan iborat. Korpus matnlarining meta-tavsifida mazmunli 
ma’lumotlar elementlari (bibliografik ma’lumotlar, matnning janr va uslub xususiyatlarini tavsiflovchi 
xususiyatlar, muallif haqidagi ma’lumotlar) va rasmiy (fayl nomi, kodlash parametrlari, belgilash tili 
versiyasi, sahna ijrochilari) mavjud. Ushbu ma’lumotlar odatda qo‘lda kiritiladi. Hujjatning tarkibiy 
tuzilishi (paragraflar, jumlalar, so‘zlarni ajratib ko‘rsatish) va haqiqiy lingvistik belgilash odatda 
avtomatik ravishda amalga oshiriladi.
5.
Keyingi qadam avtomatik markirovka natijalarini tuzatish: xatolarni tuzatish va noaniqlikni 
olib tashlash (qo‘lda yoki yarim avtomatik ravishda). 
6.
Yakuniy bosqich - belgilangan matnlarni tezkor ko‘p o‘lchovli qidirish va statistik qayta 
ishlashni ta’minlaydigan ixtisoslashgan lingvistik axborot qidirish tizimining (korpus menejeri) tarkibiga 
aylantirish. 
7.
Va nihoyat, muhofazaga kirishni ta’minlash. Ilova displey sinfida mavjud bo‘lishi mumkin, 
CD-ROM-da tarqatilishi va keng tarmoq orqali ulanishi mumkin. Foydalanuvchilarning turli toifalariga 
turli xil huquqlar va turli xil imkoniyatlar berilishi mumkin. 
Albatta, har bir aniq holatda protseduralarning tarkibi va soni yuqorida sanab o‘tilganlardan farq 
qilishi mumkin va haqiqiy texnologiya ancha murakkab bo‘lib chiqishi mumkin. 
Darhaqiqat, korpus zamonaviy ma’noda har doim kompyuter ma’lumotlar bazasi bo‘lib, uni 
yaratish jarayonida maxsus dasturlardan foydalanish tabiiydir. Ushbu dasturlar orasida avtomatik ravishda 
bo‘linish dasturlari alohida o‘rin tutadi. Qo‘shimchalarni belgilash juda zerikarli operatsiya, ayniqsa 
zamonaviy devorlarning o‘lchamlarini hisobga olgan holda. Belgilashning ba’zi turlari, xususan, anaforik, 
prosodik uchun, avtomatik tizimlarni yaratish hali ham qiyin va ishlarning aksariyati qo‘lda bajarilgan 
bo‘lsa, morfologik va sintaktik tahlil uchun odatda turli xil dasturiy vositalar mavjud bo‘lib, ular odatda 
taggerlar va tahlilchilar deb nomlanadi. navbati bilan ... Avtomatik morfologik tahlil dasturlari natijasida 
har bir leksik birlik uchun grammatik xususiyatlar, jumladan nutqning bir qismi, lemma (normal shakl) va 
grammemalar to‘plami (masalan, jins, son, ish, jonli / jonsiz, vaqtinchalik va boshqalar). Avtomatik 
sintaktik tahlil dasturlari ishi natijasida so‘zlar va iboralar orasidagi sintaktik bog‘lanishlar qayd etiladi va 
tegishli xususiyatlar (gap turi, so‘z birikmasining sintaktik vazifasi va boshqalar) sintaktik birliklarga 
tegishli. 
Shu bilan birga, tabiiy tilni avtomatik tahlil qilish xatosiz va polisemantik emas, qoida tariqasida, 
bitta leksik birlik (so‘z, ibora, jumla) uchun bir necha tahlil variantlarini taqdim etadi. Bunday holda, 
kishi grammatik omonimiya haqida gapiradi. Umuman noaniqlikni (morfologik, sintaktik) olib tashlash 
hisoblash lingvistikasining eng muhim va eng qiyin vazifalaridan biridir. Ajratish uchun holatlar 
yaratishda avtomatik va qo‘lda ishlatiladigan usullardan foydalaniladi. Keyingi avlod korpuslari yuz 
millionlab so‘zlarni o‘z ichiga oladi, shuning uchun inson aralashuvini minimallashtiradigan tizimlarni 



Download 7,21 Mb.

Do'stlaringiz bilan baham:
1   ...   174   175   176   177   178   179   180   181   ...   398




Ma'lumotlar bazasi mualliflik huquqi bilan himoyalangan ©hozir.org 2024
ma'muriyatiga murojaat qiling

kiriting | ro'yxatdan o'tish
    Bosh sahifa
юртда тантана
Боғда битган
Бугун юртда
Эшитганлар жилманглар
Эшитмадим деманглар
битган бодомлар
Yangiariq tumani
qitish marakazi
Raqamli texnologiyalar
ilishida muhokamadan
tasdiqqa tavsiya
tavsiya etilgan
iqtisodiyot kafedrasi
steiermarkischen landesregierung
asarlaringizni yuboring
o'zingizning asarlaringizni
Iltimos faqat
faqat o'zingizning
steierm rkischen
landesregierung fachabteilung
rkischen landesregierung
hamshira loyihasi
loyihasi mavsum
faolyatining oqibatlari
asosiy adabiyotlar
fakulteti ahborot
ahborot havfsizligi
havfsizligi kafedrasi
fanidan bo’yicha
fakulteti iqtisodiyot
boshqaruv fakulteti
chiqarishda boshqaruv
ishlab chiqarishda
iqtisodiyot fakultet
multiservis tarmoqlari
fanidan asosiy
Uzbek fanidan
mavzulari potok
asosidagi multiservis
'aliyyil a'ziym
billahil 'aliyyil
illaa billahil
quvvata illaa
falah' deganida
Kompyuter savodxonligi
bo’yicha mustaqil
'alal falah'
Hayya 'alal
'alas soloh
Hayya 'alas
mavsum boyicha


yuklab olish