Alisher Navoiy nomidagi Toshkent davlat o‘zbek tili va adabiyoti universiteti “O‘ZBEK MILLIY VA TA’LIMIY KORPUSLARINI YARATISHNING NAZARIY HAMDA AMALIY MASALALARI” Xalqaro ilmiy-amaliy konferensiya
Vol. 1 №. 01 (2021) 69
TURK WORDNETIGA ASOSLANGAN O'ZBEK WORDNETINI QURISH Building of the Uzbek WordNet based on the Turkish WordNet Xabibulla Madatov 30
*
Doniyor Xujamov 31
*
Behruz Boltayev 32
*
Annotatsiya. Ushbu maqola Turk WordNetga asoslangan O’zbek WordNet ni qurish metodologiyasiga . Ko'pgina tillar keng til manbalariga ega. Ikki tilli lug'atlar, bir tilli lug'atlar, tezauruslar va leksikonlar kabi manbalar leksikograflar tomonidan ishlab chiqilgan. Tillarni kompyuterda qayta ishlash tobora ommalashib borayotganligi sababli, yangi manbalar to'plamini talab qilinadi.WordNet tizimi aynan shu maqsadda ishlab chiqlganligi bu masalaning naqadar dolzarb masala ekanligini bildiradi. Kalit so'zlar: WordNet, sinset, teg, WordNet baza, xml, giponim, giperonim Annotatsiya: This article summarizes the results of the Turks' efforts to create a comprehensive WordNet for the methodology and the Turkish language. Many languages have access to a wide range of language resources. Sources such as bilingual dictionaries, monolingual dictionaries, thesauri, and lexicons were developed by lexicographers. As computer processing of languages becomes more popular, a new set of resources will become necessary. Key words: WordNet, sinset, tag, WordNet database, xml, hyponym, hyperonym O'zbek tili turkiy xalqlar tillari oilasiga mansubligini e'tiborga olgan holda o'zbek WordNetini
qurishni turk WordNeti asosida amalga oshirishga qaror qildik. WordNet onlayn leksik ma'lumotlar tizimi
bo`lib, uning dizayni inson leksik xotirasining hozirgi psixolingvistik nazariyalarini tadqiq qilish
natijasida kelib chiqqandir. WordNetni ishlab chiqish har doim ko'p mehnat talab qiladigan vazifadir.
Buning uchun bir qator mutaxassislarning ishi zarur bo’ladi. Agar uni noldan ishlab chiqish va har
tomonlama to’liqlik va aniqlik talab qilingan bo’lsa, bu ko'p yillar davom etadi. Bunday sharoitda hali
to'liq ishlab chiqilmagan qimmatbaho resurs osongina eskirishi mumkin. Buning sabablari juda ko’p.
Birinchidan, WordNet "so'zlar" bilan shug'ullanganligi sababli, uning mazmuni eskirishi mumkin.
Eskirgan so‘zlarning hozirgi tilda sinonimi mavjud bo‘ladi. Masalan:
budun, ulus, raiyat – xalq; handasa - geometriya; muarrix - tarixchi; dudoq – lab; lang - cho‘loq, oqsoq. Bundan tashqari, yangi ma'lumotlar
WordNet tarkibiga qo'shilishi mumkin, masalan ijtimoiy-iqtisodiy taraqqiyot va o‘zgarishlar natijasida
vujudga kelgan narsa - hodisalarning yangi nomlari. Masalan, O‘zbekiston mustaqil bo‘lgandan so‘ng
tilimizda paydo bo‘lgan
faxriy - veteran, noib - deputat, tuman - rayon, tayyora - samolyot kabi so‘zlar
yangi so‘zlardir. So'ngra, WordNet-ni namoyish qilish uchun ishlatiladigan format o'z vaqtida o'zgarib
boradi. So'zlashuvlarni ishlab chiqish va saqlash uchun ishlatiladigan vositalar tarkibni takomillashtirish
va formatdagi o'zgarishlarga mos kelishi kerak.
Qaralayotgan ishda o'zbek WordNetini yaratishda bosqichma-bosqich quyidagi vazifalar
muhokama qilingan va ularning yechimi python dasturlash tilida xronologik tartibda taqdim etilgan:
turk WordNet bazasida joylashgan so'zlarni ID va bog'lanishlarini saqlagan holda ajratib olish
turkcha so'zlarni mutaxassislar tomonidan ajratib olingan so'zlarni o'zbek tiliga to'liq va aniq
tarjima qilish
o'zbek tiliga tarjima qilingan so'zlarni o'zbek tili bazasidan izohi va misollarini aniqlash
hosil bo'lgan ma'lumotlarni sinsetlarga joylashtirib XML formatidagi WordNet fayliga yozish