Alisher Navoiy nomidagi Toshkent davlat o‘zbek tili va adabiyoti universiteti “O‘ZBEK MILLIY VA TA’LIMIY KORPUSLARINI YARATISHNING NAZARIY HAMDA AMALIY MASALALARI” Xalqaro ilmiy-amaliy konferensiya
Vol. 1 №. 01 (2021) 66
adictakha.nsu.ru/corpora/corp; sibir ozchilik tillarining raqamli korpusi (Teleut va Shor) -
corpora.iea.ras.ru/corpora .
2. Turkiy tillarning elektron korpuslari tahlili Elektron lingvistik korpuslarni ruivojlantirishda linvistik ma’lumotlarni analiz qilish uchun
zamonaviy kompyuter metodlari va lingvistik tadqiqotlar natijalarini birlashtirish muayyan darajada
muammolarni yechishda muhim rol o‘ynaydi. Korpuslardagi annotatsiyalash tizimining standartlashuvi
katta hajmdagi ma’lumotlarni qayta ishlash imkonini yaratadi. Korpus texnologiyasi hamisha chastotaga
asoslangan analiz olib boradi. Korpusdagi ma’lumotlar veb sahifalaridagi ma’lumotlardan farqi
matnlardan tashqari nutqiy jarayonda yaratilgan turli uslubdagi yozma va og‘zaki materiallar (gazeta va
jurnal materillari) hamda audio ko‘rinishidagi ma’lumotlar ham o‘rin oladi [Abduraxmonova N., 2021:
285].
Ilmiy tadqiqotlarning globallashuvi va integrallashuvi ta’sirida bir-biriga yaqin tillarning
korpuslarida aks etuvchi grammatik kategoriyalarining umumiy annotatsiyalash tizimidan foydalanish
korpuslarning lingvistik reprezentativligini ta’minlashga hizmat qiladi.
Ma’lumki, shu kunga qadar barcha turkiy tillarning matnlarni lingvistik annotatsiyalash tizimi
uchun umumiy tamoyillar va yondashuvlarning ishlab chiqilmagan. Bu o‘z-o‘zidan turkiy tillarning
parallel korpuslari, ko‘p tilli tabiiy matnlarni qayta ishlash texnologiyalarida nazariy va amaliy
muammolarni yuzaga keltirmoqda.
Kuzatishlarimizda shu narsa ayon bo‘ldiki, turkiy tillar bo‘yicha yaratilgan korpuslarning aksariyat
annotatsiyalash tizimi hind-yevropa tillariga mo‘ljallangan teglash tizimidan foydalanilgan. Biroq u yoki
bu teglash tizimi barcha turkiy tillarning grammatik kategoriyalari uchun to‘liq mos kelmasligi mumkin.
Shu kabi masalalarda ayrim muammolar yuzaga kelgani bois ularni tashkiliy jihatdan
umumlashtirishga doir masalalar qator xalqaro konferensiyalar va seminarlarda muhokama qilinib
kelinmoqda. Shular jumlasiga turkiy tillar korpuslari uchun umumiy grammatik annotatsiyani yaratishga
yo‘naltirilgan TEL va TurkLang xalqaro konferensiyasining UniTurk seminarini misol sifatida keltirish
mumkin. Ushbu masala bir necha yillardan buyon (Qozon 2014, Istanbul 2014, Qozon 2015, Bishkek
2016, Toshkent 2018) muhokamalarda asosiy mavzuga aylandi. Garchi bu kabi tashkiliy masalalarda
lingvistik annotatsiyalash bir necha bor muhokamalarga sabab bo‘layotgan bo‘lsa-da, juda sekin va
samarasi u darajada yuqori bo‘lmayotganligini amaliyotda kuzatish mumkin. Lingvistik resurslar va
uskunalarni birlashtirishda “Turkiy morfem” portalining o‘rni yuqori deyish mumkin
(
modmorph.turklang.net
, [Gatiatullin et al., 2020: 15].