Alisher Navoiy nomidagi Toshkent
davlat o‘zbek tili va adabiyoti
universiteti
“O‘ZBEK MILLIY VA TA’LIMIY
KORPUSLARINI YARATISHNING NAZARIY
HAMDA AMALIY MASALALARI”
Xalqaro ilmiy-amaliy konferensiya
Vol. 1
№. 01 (2021)
69
TURK WORDNETIGA ASOSLANGAN O'ZBEK WORDNETINI QURISH
Building of the Uzbek WordNet based on the Turkish WordNet
Xabibulla Madatov
30
*
Doniyor Xujamov
31
*
Behruz Boltayev
32
*
Annotatsiya.
Ushbu maqola Turk WordNetga asoslangan O’zbek WordNet ni qurish
metodologiyasiga . Ko'pgina tillar keng til manbalariga ega. Ikki tilli lug'atlar, bir tilli lug'atlar,
tezauruslar va leksikonlar kabi manbalar leksikograflar tomonidan ishlab chiqilgan. Tillarni
kompyuterda qayta ishlash tobora ommalashib borayotganligi sababli, yangi manbalar to'plamini talab
qilinadi.WordNet tizimi aynan shu maqsadda ishlab chiqlganligi bu masalaning naqadar dolzarb masala
ekanligini bildiradi.
Kalit so'zlar:
WordNet, sinset, teg, WordNet baza, xml, giponim, giperonim
Annotatsiya:
This article summarizes the results of the Turks' efforts to create a comprehensive
WordNet for the methodology and the Turkish language. Many languages have access to a wide range of
language resources. Sources such as bilingual dictionaries, monolingual dictionaries, thesauri, and
lexicons were developed by lexicographers. As computer processing of languages becomes more popular,
a new set of resources will become necessary.
Key words:
WordNet, sinset, tag, WordNet database, xml, hyponym, hyperonym
O'zbek tili turkiy xalqlar tillari oilasiga mansubligini e'tiborga olgan holda o'zbek WordNetini
qurishni turk WordNeti asosida amalga oshirishga qaror qildik. WordNet onlayn leksik ma'lumotlar tizimi
bo`lib, uning dizayni inson leksik xotirasining hozirgi psixolingvistik nazariyalarini tadqiq qilish
natijasida kelib chiqqandir. WordNetni ishlab chiqish har doim ko'p mehnat talab qiladigan vazifadir.
Buning uchun bir qator mutaxassislarning ishi zarur bo’ladi. Agar uni noldan ishlab chiqish va har
tomonlama to’liqlik va aniqlik talab qilingan bo’lsa, bu ko'p yillar davom etadi. Bunday sharoitda hali
to'liq ishlab chiqilmagan qimmatbaho resurs osongina eskirishi mumkin. Buning sabablari juda ko’p.
Birinchidan, WordNet "so'zlar" bilan shug'ullanganligi sababli, uning mazmuni eskirishi mumkin.
Eskirgan so‘zlarning hozirgi tilda sinonimi mavjud bo‘ladi. Masalan:
budun, ulus, raiyat – xalq; handasa
- geometriya; muarrix - tarixchi; dudoq – lab; lang - cho‘loq, oqsoq.
Bundan tashqari, yangi ma'lumotlar
WordNet tarkibiga qo'shilishi mumkin, masalan ijtimoiy-iqtisodiy taraqqiyot va o‘zgarishlar natijasida
vujudga kelgan narsa - hodisalarning yangi nomlari. Masalan, O‘zbekiston mustaqil bo‘lgandan so‘ng
tilimizda paydo bo‘lgan
faxriy - veteran, noib - deputat, tuman - rayon, tayyora - samolyot
kabi so‘zlar
yangi so‘zlardir. So'ngra, WordNet-ni namoyish qilish uchun ishlatiladigan format o'z vaqtida o'zgarib
boradi. So'zlashuvlarni ishlab chiqish va saqlash uchun ishlatiladigan vositalar tarkibni takomillashtirish
va formatdagi o'zgarishlarga mos kelishi kerak.
Qaralayotgan ishda o'zbek WordNetini yaratishda bosqichma-bosqich quyidagi vazifalar
muhokama qilingan va ularning yechimi python dasturlash tilida xronologik tartibda taqdim etilgan:
turk WordNet bazasida joylashgan so'zlarni ID va bog'lanishlarini saqlagan holda ajratib olish
turkcha so'zlarni mutaxassislar tomonidan ajratib olingan so'zlarni o'zbek tiliga to'liq va aniq
tarjima qilish
o'zbek tiliga tarjima qilingan so'zlarni o'zbek tili bazasidan izohi va misollarini aniqlash
hosil bo'lgan ma'lumotlarni sinsetlarga joylashtirib XML formatidagi WordNet fayliga yozish
Do'stlaringiz bilan baham: |