Alisher Navoiy nomidagi Toshkent davlat o‘zbek tili va adabiyoti universiteti



Download 7,21 Mb.
Pdf ko'rish
bet112/398
Sana26.02.2022
Hajmi7,21 Mb.
#467559
1   ...   108   109   110   111   112   113   114   115   ...   398
Bog'liq
Тайёр Миллий корпус тўплам 17.05

HAMDA AMALIY MASALALARI”
Xalqaro ilmiy-amaliy konferensiya
Vol. 1
№. 01 (2021) 
94 
O‘ZBEK TILI KORPUSIDA SO‘Z TURKUMLARINI TEGLASH MASALASI 
 
THE PROBLEM OF TAGGING WORDS IN UZBEK LANGUAGE CORPUS 
Rabbimov Ilyos Mehriddinovich
*
38
Umirova Svetlana Ma’murjonovna
**
39
Xolmuxamedov Baxtiyor Farxodovich
*** 
40
Annotatsiya. 
Tabiiy tillarni qayta ishlash tizimlarida so‘zlarni turkumlarga ajratish algoritmlari 
va so‘z turkumlari teglangan korpuslar muhim elementlardan biri hisoblanadi.
 
Ushbu maqolada o‘zbek 
tili uchun so‘z turkumlari teglangan matnli korpus ishlab chiqish masalasi muhokama qilingan.
Kalit so‘zlar: 
so‘z turkumlari, matnli korpus, UZPOS, UPOS, teglash bo‘yicha ko‘rsatmalar, 
avtomatik turkumlash.
 
Annotation.
Part-of-speech tagging algorithms and part-of-speech tagged corpus are one of the 
most important elements in natural language processing systems. In this paper, the issue of developing of 
Uzbek part-of-speech tagged corpus was discussed. 
Keywords:
part-of-speech tag set, text corpus, UZPOS, UPOS, annotation guidelines, automatic 
categorization. 
Kompyuter lingvistikasining amaliy masalalarini hal qilishdagi yondashuvlarni asosan quyidagi 
sinflarga ajratish mumkin: 

qoidaga asoslangan yondashuvlar; 

mashinali o‘qitishga asoslangan yondashuvlar; 

gibrid yondashuvlar. 
Til korpuslari barcha yondashuvlarda muhim lingvistik manba boʻlib xizmat qiladi. Xususan, 
mashinali o‘qitish va gibrid yondashuvlarda kompyuter tabiiy tilni korpuslar yordamida tushunadi. Bu 
jarayonda sifatli korpuslar asosiy vositalardan biri hisoblanadi. Qoidaga asoslangan yondashuvlarda esa 
til korpuslaridan yaratilgan algoritm, dasturning ishlash sifatini baholashda foydalaniladi. Til korpuslari 
sunʼiy intellekt texnologiyalarini ishlab chiqish, mashinali o‘qitish, teran o‘qitish sohalari bilan birga 
tilshunoslikdagi nazariyalarni tasdiqlash, tillarni o‘qitish va tilshunoslikka oid boshqa sohalarda ham keng 
qo‘llaniladi. 
Hozirgacha jahonda koʻplab til korpuslari ishlab chiqilgan bo‘lib, ularning eng mashhurlari sifatida 
Brown corpus, the Lancaster/Oslo-Bergen corpus, the Spoken English Corpus, the Polytechnic of Wales 
corpus, the University of Pennsylvania corpus, the London-Lund Corpus, the International Corpus of 
English, the British National Corpus, the Spoken Corpus Recordings kabilarni aytishimiz mumkin. 
Dunyoda korpus lingvistikasi sohasida turli maqsadlarga moʻljallangan korpuslar ishlab chiqish boʻyicha 
ilmiy, amaliy tadqiqotlar olib borilmoqda. Korpuslardagi matn namunalari lingvistik ma’lumot va tahlillar 
bilan boyitilgan bo‘lsa, ular ko‘plab tadqiqotlar uchun juda foydali manba bo‘ladi. Ishlab chiqilgan 
lingvistik korpuslar tahlili shuni koʻrsatadiki, matnlarni lingvistik ma’lumotlar bilan boyitishning birinchi 
bosqichi korpus matnlaridagi soʻzlarga mos boʻlgan soʻz turkumlarini belgilab chiqish hisoblanadi 
[Atwell, 2008: 2].
So‘zning turkumi haqidagi ma’lumotlardan tilni modellashtirish, matnlarni tasniflash, fikrlarni 
aniqlash, shaxs va joy nomlarini avtomatik aniqlash, korpus bo‘yicha qidirish, konkordans tuzish, 
mashina tarjimasi, grammatik tahlil, soʻz maʼnosini ajratish, sintaktik tahlil va tokenlarga ajratish 
masalalarida foydalaniladi. Matndagi har bir soʻzga mos so‘z turkumini qoʻlda teglab chiqish koʻp vaqt 
va mashaqqatli mehnatni talab qiladi. Shu va boshqa sabablarga ko‘ra, tarkibidagi so‘zlarning turkumlari 
teglab chiqilgan matnli korpusni ishlab chiqish dolzarb vazifa hisoblanadi. Ushbu maqolada biz o‘zbek 
tilida so‘z turkumlari teglangan matnli korpusni taqdim qilamiz. 
Koʻplab tillar uchun soʻz turkumlariga ajratish (part-of-speech tagging) algoritm va dasturiy 
vositalari ishlab chiqilgan. Ularga OpenNLP Part-of-Speech Tagger, NLTK, Stanford Phrase Structure 
Parser, TreeTagger, CLAWS, Sparv, Turku-neural-parser-pipeline, Assamese POS Tagger, CLaRK, 
HMM tagger, Frog, Viterbi algorithm, Brill tagger, Constraint Gramma, Baum-Welch algorithm,
38
* Tayanch doktorant, Samarqand davlat universiteti, ilyos.rabbimov91@gmail.com 
39
**PhD, dotsent, Samarqand davlat universiteti, umirova.s.m06@mail.ru  
40
*** PhD, dotsent, Samarqand davlat universiteti, bxolmuxamedov@mail.ru 



Download 7,21 Mb.

Do'stlaringiz bilan baham:
1   ...   108   109   110   111   112   113   114   115   ...   398




Ma'lumotlar bazasi mualliflik huquqi bilan himoyalangan ©hozir.org 2024
ma'muriyatiga murojaat qiling

kiriting | ro'yxatdan o'tish
    Bosh sahifa
юртда тантана
Боғда битган
Бугун юртда
Эшитганлар жилманглар
Эшитмадим деманглар
битган бодомлар
Yangiariq tumani
qitish marakazi
Raqamli texnologiyalar
ilishida muhokamadan
tasdiqqa tavsiya
tavsiya etilgan
iqtisodiyot kafedrasi
steiermarkischen landesregierung
asarlaringizni yuboring
o'zingizning asarlaringizni
Iltimos faqat
faqat o'zingizning
steierm rkischen
landesregierung fachabteilung
rkischen landesregierung
hamshira loyihasi
loyihasi mavsum
faolyatining oqibatlari
asosiy adabiyotlar
fakulteti ahborot
ahborot havfsizligi
havfsizligi kafedrasi
fanidan bo’yicha
fakulteti iqtisodiyot
boshqaruv fakulteti
chiqarishda boshqaruv
ishlab chiqarishda
iqtisodiyot fakultet
multiservis tarmoqlari
fanidan asosiy
Uzbek fanidan
mavzulari potok
asosidagi multiservis
'aliyyil a'ziym
billahil 'aliyyil
illaa billahil
quvvata illaa
falah' deganida
Kompyuter savodxonligi
bo’yicha mustaqil
'alal falah'
Hayya 'alal
'alas soloh
Hayya 'alas
mavsum boyicha


yuklab olish