Alisher Navoiy nomidagi Toshkent
davlat o‘zbek tili va adabiyoti
universiteti
“O‘ZBEK MILLIY VA TA’LIMIY
KORPUSLARINI YARATISHNING NAZARIY
HAMDA AMALIY MASALALARI”
Xalqaro ilmiy-amaliy konferensiya
Vol. 1
№. 01 (2021)
98
КОРПУСДА РАЗМЕТКА ВА УНИНГ ХУСУСИЯТЛАРИ
MARKING IN CORPUS AND ITS FEATURES
Асқар Эшмуминов*
41
Аннотация.
Ушбу мақолада ўзбек тилининг миллий корпусида семантик разметка ва
разметка турлари муҳокама қилинади
.
Annotation.
This article discusses the development of the semantic layout in the National Corpus
of the Uzbek language and the need for it.
Калит сўзлар:
Лингвистик корпус, разметка, разметка схемаси, разметка турлари
Keywords:
Linguistic corpus, marking, marking scheme, marking types
Барча тадқиқий ҳаракатларимиз ўзбек тили миллий корпусини яратишга кўмаклашишга
бағишланар экан, масаланинг айрим назарий ва амалий жиҳатларига тўхталиш жоиз бўлади.
Маълумки, корпуслар разметка белгисига кўра муайян тоифаларга бўлинади. Бунда
разметка
атамаси билан ёндош ҳолда, бўлинишни ифодаловчи:
индексланган, индексланмаган,
аннотацияланган, аннотацияланмаган, тегланган, тегланмаганлик
терминлари ҳам учрайди.
Разметкаланган корпусда сўз ва жумлаларга разметканинг морфологик, синтактик, семантик,
просодик ва ҳ. турини ифода этувчи лингвистик разметкага кўра
тег
лар бириктирилади [Захаров
В.П., Богданова С.Ю, 2011: 25].
Лингвистик разметканинг бир қанча тамойиллари мавжуд, булар:
1)
разметка схемаси/тузилишини тавсифлаш (асослаш);
2)
лингвистик тушунчаларнинг умумқабул қилинган системаси;
3)
таҳлилнинг фойдаланувчига маълум бўлган схемаси;
4)
параметрларнинг асослантирилган тарзда киритилиши;
5)
разметканинг анъанавий схемаси;
6)
халқаро стандартларга амал қилиш [Захаров, Богданова, 2011: 161].
Tagging, annotation
деб номланувчи корпус разметкасини ифода этувчи амалиёт ўз-ўзидан
мураккаб жараён. Жумладан, бу борада корпусга киритилувчи маълумотлар базасининг таркиби,
уни корпусга киритишда ўзбек тили орфографик тамойиллари ҳам инобатга олиниши лозим.
Шунингдек, ўзбек адабий тили ҳамда умуммиллий тил унсурларини тўғри таҳлил қилиш, шунга
мос саралаш амалиётини амалга ошириш керак. Негаки, тадқиқ объектимизни ифода этувчи
синонимлар разметкаси айнан шу жиҳатларга бевосита боғлиқ. Бинобарин, ўзбек тили миллий
корпуси битта дастур ёхуд битта йўналиш, битта лингвистик сатҳ маълумотларидан фарқли
ўлароқ, амалий тилшуносликнинг бошқа турдаги йўналишларига доир маълумотларни қайта
ишловчи дастурларни ҳам ўз ичига олиши табиий. Шундай бўлгач, бу борада қуйидаги
вазифаларни амалга ошириш мақсадга мувофиқ бўлади:
ўзбек тилида яратилган синонимлар изоҳли луғатларининг ўзбек тили порталига
жойлашувини мунтазамлаштириш: бунда янгиланаётган маълумотларни тезлик билан қайта
ишлаб, базага киритувчи дастурларни такомиллаштириш;
порталга ўзбек адабий тили меъёрларини жойлаштириш: бунда бир синонимик қаторда
жойлашувчи лексемаларнинг услубий хосланганлик белгиларини таҳлил қилиш имконияти
кенгаяди;
фойдаланувчи мурожаатини қайта ишлаш тизимини такомиллаштириш: бунда муайян
семантик бирлик борасидаги биргина сўров ҳам келгусида бажарилиши лозим бўлган илмий
изланишларнинг йўналишини, предмети, объекти ва мақсадини аниқлашга сабаб бўлиши мумкин.
Таъкидлаш лозимки, компьютер ишлаб чиқариш ҳажмининг кенгайиши, у билан катта
миқдордаги ҳужжатларни электрон шаклда сақлаш имконининг юзага келиши, ўз навбатида,
корпусларнинг яратилишига асос туғдирди. Хусусан, корпусга оид дастлабки лойиҳалар 500 минг
сўздан ташкил топган бўлса, 1960-йилларга келиб, уларнинг миқдорини 1 млн.га етказиш
мақсадлари қўйилди. [Cieri, 2002: 1327] Шунга кўра, корпус кўламининг орта бориши билан, қайта
ишланувчи матн билан бирга киритилувчи қўшимча ахборотнинг таркиби катта аҳамиятга эга
41
*Филология фанлари бўйича фалсафа доктори (PhD), Термиз давлат университети. easqar@list.ru
Do'stlaringiz bilan baham: |