Kalit so‘zlar:
uzbekcorpora.uz,
o‘zbek tili, korpus, tokenayzer, lemmatayzer, razmetkalash, qidiruv
tizimi, lingvistika, teg.
Annotation:
This article describes the use of tokenizer, lemmatizer and marking software of
uzbekcorpora.uz system for Uzbek language corpus. uzbekcorpora.uz software is a free online platform.
This allows the learner to work anywhere, on any computer, while studying a language.
The software consists of components such as concording words, phrases, markup, wording, tokens,
and frequency dictionaries.
Learners will need to use a corpus management manager and a corpus search engine to find the
information they need when researching a language. It allows you to fully understand the features of the
language and work on them
Keywords:
uzbekcorpora.uz, uzbek language, corpus, tokenizer, lemmatizer, marking, search
engine, linguistics, tag.
So‘ngi vaqtlarda tillarni o‘qitish, til ustida turli xil statistik tahlillar olish va tadqiq qilishda
ma’lumotlarni avtomatlashitirish, katta hajmdagi ma’lumotlar bilan ishlashga doir dasturiy ta’minotlar
yaratilmoqda. Shunday vaziyatda til korpuslarini yaratish juda muhim hisoblanadi. Chapelle
ta’riflaganidek, “korpus inqilobi” yuzaga keldi. Korpuslar ko‘plab sohalarda, shu jumladan,
tarjimashunoslik, stilistika, grammatika va lug‘at yaratish kabi sohalarda keng qo‘llanila boshladi
[C.A.Chapelle: 2001]. Jon tilni o‘rganishda maqsadli kontekstlarda til qanday ishlatilishini o‘quvchi
mustaqil ravishda tadqiq etishi uchun korpuslardan foydalanishni, ya’ni tilni o‘rganishga “ma’lumotlar
boshqaruvi” deb ataluvchi yondashuvni taklif qildi [T.Johns, 1997: 100]. O‘rganuvchilar tilni tadqiq
qilishda o‘zlariga kerakli bo‘lgan ma’lumotlarni olishi uchun korpus boshqaruv menejeri va korpus
bo‘ylab qidiruv tizimidan foydalanishi zarur bo‘ladi. Bunda til xususiyatlarini to‘liq bilishi va ular ustida
amallar bajarish imkonini beradi. Tilga oid xarakteristikalari turlicha sohalarga tegishli bo‘lgani uchun
yuqorida aytilgan taklif texnik yozuv mashg‘ulotlarida juda samarali bo‘lishi mumkin [Laurence
Anthony, 2005: 729].
Ma’lumotlarni qayta ishlash va natijalarni tushunarli tarzda taqdim etishga xizmat qiluvchi dasturiy
vositalarsiz til korpusining biron bir foydasi yo‘q.
Dasturiy ta’minot so‘z va iboralarni korpus bo‘ylab qidirish (konkordans), razmetkasini aniqlash
(so‘z harakteristikasi), lemmalash, tokenlash va chastotali lug‘atlarni yaratish kabi tarkibiy qismlardan
iborat.
*
fizika-matematika fanlari nomzodi, professor, Muhammad al-Xorazmiy nomidagi Toshkent axborot
texnologiyalari universiteti Samarqand filiali
**
filologiya fanlari doktori, professor, Samarqand davlat universiteti
***
Muhammad al-Xorazmiy nomidagi Toshkent axborot texnologiyalari universiteti Samarqand filiali
Do'stlaringiz bilan baham: |