HAMDA AMALIY MASALALARI”
Xalqaro ilmiy-amaliy konferensiya
Vol. 1
№. 01 (2021)
94
O‘ZBEK TILI KORPUSIDA SO‘Z TURKUMLARINI TEGLASH MASALASI
THE PROBLEM OF TAGGING WORDS IN UZBEK LANGUAGE CORPUS
Rabbimov Ilyos Mehriddinovich
*
38
Umirova Svetlana Ma’murjonovna
**
39
Xolmuxamedov Baxtiyor Farxodovich
***
40
Annotatsiya.
Tabiiy tillarni qayta ishlash tizimlarida so‘zlarni turkumlarga ajratish algoritmlari
va so‘z turkumlari teglangan korpuslar muhim elementlardan biri hisoblanadi.
Ushbu maqolada o‘zbek
tili uchun so‘z turkumlari teglangan matnli korpus ishlab chiqish masalasi muhokama qilingan.
Kalit so‘zlar:
so‘z turkumlari, matnli korpus, UZPOS, UPOS, teglash bo‘yicha ko‘rsatmalar,
avtomatik turkumlash.
Annotation.
Part-of-speech tagging algorithms and part-of-speech tagged corpus are one of the
most important elements in natural language processing systems. In this paper, the issue of developing of
Uzbek part-of-speech tagged corpus was discussed.
Keywords:
part-of-speech tag set, text corpus, UZPOS, UPOS, annotation guidelines, automatic
categorization.
Kompyuter lingvistikasining amaliy masalalarini hal qilishdagi yondashuvlarni asosan quyidagi
sinflarga ajratish mumkin:
qoidaga asoslangan yondashuvlar;
mashinali o‘qitishga asoslangan yondashuvlar;
gibrid yondashuvlar.
Til korpuslari barcha yondashuvlarda muhim lingvistik manba boʻlib xizmat qiladi. Xususan,
mashinali o‘qitish va gibrid yondashuvlarda kompyuter tabiiy tilni korpuslar yordamida tushunadi. Bu
jarayonda sifatli korpuslar asosiy vositalardan biri hisoblanadi. Qoidaga asoslangan yondashuvlarda esa
til korpuslaridan yaratilgan algoritm, dasturning ishlash sifatini baholashda foydalaniladi. Til korpuslari
sunʼiy intellekt texnologiyalarini ishlab chiqish, mashinali o‘qitish, teran o‘qitish sohalari bilan birga
tilshunoslikdagi nazariyalarni tasdiqlash, tillarni o‘qitish va tilshunoslikka oid boshqa sohalarda ham keng
qo‘llaniladi.
Hozirgacha jahonda koʻplab til korpuslari ishlab chiqilgan bo‘lib, ularning eng mashhurlari sifatida
Brown corpus, the Lancaster/Oslo-Bergen corpus, the Spoken English Corpus, the Polytechnic of Wales
corpus, the University of Pennsylvania corpus, the London-Lund Corpus, the International Corpus of
English, the British National Corpus, the Spoken Corpus Recordings kabilarni aytishimiz mumkin.
Dunyoda korpus lingvistikasi sohasida turli maqsadlarga moʻljallangan korpuslar ishlab chiqish boʻyicha
ilmiy, amaliy tadqiqotlar olib borilmoqda. Korpuslardagi matn namunalari lingvistik ma’lumot va tahlillar
bilan boyitilgan bo‘lsa, ular ko‘plab tadqiqotlar uchun juda foydali manba bo‘ladi. Ishlab chiqilgan
lingvistik korpuslar tahlili shuni koʻrsatadiki, matnlarni lingvistik ma’lumotlar bilan boyitishning birinchi
bosqichi korpus matnlaridagi soʻzlarga mos boʻlgan soʻz turkumlarini belgilab chiqish hisoblanadi
[Atwell, 2008: 2].
So‘zning turkumi haqidagi ma’lumotlardan tilni modellashtirish, matnlarni tasniflash, fikrlarni
aniqlash, shaxs va joy nomlarini avtomatik aniqlash, korpus bo‘yicha qidirish, konkordans tuzish,
mashina tarjimasi, grammatik tahlil, soʻz maʼnosini ajratish, sintaktik tahlil va tokenlarga ajratish
masalalarida foydalaniladi. Matndagi har bir soʻzga mos so‘z turkumini qoʻlda teglab chiqish koʻp vaqt
va mashaqqatli mehnatni talab qiladi. Shu va boshqa sabablarga ko‘ra, tarkibidagi so‘zlarning turkumlari
teglab chiqilgan matnli korpusni ishlab chiqish dolzarb vazifa hisoblanadi. Ushbu maqolada biz o‘zbek
tilida so‘z turkumlari teglangan matnli korpusni taqdim qilamiz.
Koʻplab tillar uchun soʻz turkumlariga ajratish (part-of-speech tagging) algoritm va dasturiy
vositalari ishlab chiqilgan. Ularga OpenNLP Part-of-Speech Tagger, NLTK, Stanford Phrase Structure
Parser, TreeTagger, CLAWS, Sparv, Turku-neural-parser-pipeline, Assamese POS Tagger, CLaRK,
HMM tagger, Frog, Viterbi algorithm, Brill tagger, Constraint Gramma, Baum-Welch algorithm,
38
* Tayanch doktorant, Samarqand davlat universiteti, ilyos.rabbimov91@gmail.com
39
**PhD, dotsent, Samarqand davlat universiteti, umirova.s.m06@mail.ru
40
*** PhD, dotsent, Samarqand davlat universiteti, bxolmuxamedov@mail.ru
Do'stlaringiz bilan baham: |