Alisher Navoiy nomidagi Toshkent
davlat o‘zbek tili va adabiyoti
universiteti
“O‘ZBEK MILLIY VA TA’LIMIY
KORPUSLARINI YARATISHNING NAZARIY
HAMDA AMALIY MASALALARI”
Xalqaro ilmiy-amaliy konferensiya
Vol. 1
№. 01 (2021)
296
O‘ZBEK TILIDAGI ELEKTRON AXBOROT MATNLARI KORPUSINI
YARATISHDAGI O‘ZIGA XOSLIKLAR
CHARACTERISTICS OF BODY CREATION OF ELECTRONIC TEXTS IN UZBEK
LANGUAGE
Abdullayeva Oqila Xolmo‘minovna
Annotatsiya:
Maqolada o‘zbek tili elektron axborot matnlari korpusini qurishning nazariy va
amaliy masalalari yoritilgan. Korpus qurish uchun tanlangan dastur va lingvistik ta’minotning o‘ziga xos
xususiyatlari, korpusda matnlarni yuklash, saqlash, qayta ishlash, teglash masalalari atroflicha
yoritilgan.
Kalit so‘zlar:
teglash, konkordans, lemmatizatsiya, tokenizatsiya, nutq qismlarini ajratish.
Annotation:
In this article, theoretical and practical issues of building a corpus of electronic
information texts are discussed in Uzbek. The specifics of the software and linguistic software selected for
the construction of the corpus, the issues of loading, storage, processing and tagging of the texts in the
corpus are covered in detail.
Keywords:
tagging, concordance, lemmatization, tokenization, part of speech.
Amalga oshirilayotgan tadqiqotlar shuni ko‘rsatadiki, korpuslar til nazariyasi emas, balki
ma’lumotlarni ham miqdor, ham sifat jihatidan ko‘rish va tahlil qilish usulidir. Korpus-lingvistik
yondashuvdan til xususiyatlarini tavsiflash va turli lingvistik doiralarda shakllangan har xil farazlarni
sinab ko‘rish uchun foydalanish mumkin, ya’ni tabiiy ravishda uchraydigan til namunalari yordamida tilni
o‘rganadi. Har bir tadqiqot ishida kuzatilgani kabi til korpuslarini yaratish jarayoni ham ma’lum bir
bosqichlari va muammoli jihatlari bilan murakkabdir. Korpusni qayta ishlash nafaqat asosiy lingvistik
tadqiqot va rivojlantirish ishlari uchun, balki til texnologiyalari uchun ham ajralmas hisoblanadi.
Korpusni qayta ishlashning turli xil uslublari mavjud, masalan, statistik tahlil, konkordans, leksik so‘z
birikmasi (collokatsiya), kalit so‘zlarni qidirish, mahalliy so‘zlarni guruhlash, lemmatizatsiya, morfologik
tahlil va yaratish, qismlarga ajratish, so‘zlarni qayta ishlash, nutq qismlarini belgilash, izohlash, tahlil
qilish va hokazo. Korpusni qayta ishlash natijasida olingan natijalar ko‘pincha til va uning xususiyatlari
haqidagi sezgilarga zid ekanligi kuzatildi. Bugungi kunda juda ko‘p tillar uchun korpusni qayta ishlash
bo‘yicha ko‘plab dasturlar mavjud. O‘zbek tili uchun esa hozirda korpus qurish va qayta ishlash uchun
dasturlar yaratish ishlari boshlandi.
Hozirgi korpuslardan foydalanish ikki katta sinfga bo‘linadi. Bir tomondan, ular tilshunos
mutaxassis uchun tabiiy til ma’lumotlari ombori sifatida intellektual tahlil uchun asos bo‘lib xizmat
qiladi. Boshqa tomondan, ular kompyuter tizimlari uchun o‘quv materiallari sifatida ishlatiladi. Til
korpuslarini yaratishda odatda maqsadli foydalanuvchilarni ham aniqlash zarur bo‘ladi yoki
yaratilayotgan korpusdan kimlar foydalanishi mumkinligi muhim ahamiyat kasb etadi. Hind olimi Dash
tadqiqotlarida korpusdan foydalanuvchilarning turlari va ularning korpus turiga bo‘lgan ehtiyojlarini
jadval asosida bergan [Dash, 2015: internet manba].
Do'stlaringiz bilan baham: |