Alisher Navoiy nomidagi Toshkent davlat o‘zbek tili va adabiyoti universiteti



Download 7,21 Mb.
Pdf ko'rish
bet118/398
Sana26.02.2022
Hajmi7,21 Mb.
#467559
1   ...   114   115   116   117   118   119   120   121   ...   398
Bog'liq
Тайёр Миллий корпус тўплам 17.05

Alisher Navoiy nomidagi Toshkent 
davlat o‘zbek tili va adabiyoti 
universiteti 
“O‘ZBEK MILLIY VA TA’LIMIY 
KORPUSLARINI YARATISHNING NAZARIY 
HAMDA AMALIY MASALALARI”
Xalqaro ilmiy-amaliy konferensiya
Vol. 1
№. 01 (2021) 
99 
бўлиб боради. Ўзбек тили миллий корпусини яратишдаги семантик р азметкада матнни қайта 
ишлаш воситаларининг етарлича такомилга етмаганлиги, ҳозирча семантик ва синтактик 
ахборотни автоматик тарзда киритиш имконини чегаралайди. Ваҳоланки, ўн миллионлаб сўздан 
иборат корпусни қўлбола усулда разметкалаш – ҳақиқатдан йироқ ҳолат; мавжуд йирик корпуслар 
разметкасида эса, леммаларни белгилаш (лемматизация) билан кифояланилган. Бу борада илмий 
манбаларда қайд этилган газета корпуси (А.А.Поликарпов раҳбарлигида: матбуот ва “оммавий” 
адабиёт корпуси; Финляндиянинг Тампера шаҳридаги университетда яратилган рус корпуси 
(Х.Томмола ва М.Михайлов раҳбарлигида)ни мисол қилса бўлади. Мазкур корпусларда 
морфологик разметка бўлмаганлиги сабабли, алоҳида грамматик маъноларни излашдан маъно йўқ. 
Бинобарин, морфологик ва морфологик-синтактик белгиларни ифода этувчи мукаммал разметка 
катта меҳнатни талаб қилади. Бироқ у қадар катта бўлмаган корпус учун ярим автомат разметкани 
фақат морфологик, синтактик ва семантик ахборот устида амалга ошириш мумкин. 
 
Санкт­Петербург университети корпуси, ИППИ корпуси, Прага корпуси, Хельсинки 
корпусининг аннотацион лойиҳаси ХАНКО, FrameNet корпуси сингариларни бунга мисол қилиш 
мумкин. Синтактик разметкаланган Penn Treebank матнлари эса ўз даврида Браун корпусига 
асосланиб тўпланган. Ҳолбуки, матнларни қайта ишлаш технологияларининг такомили катта 
миқдордаги ахборотни автоматик тарзда киритиш, хусусан, объектларни номларига кўра 
тенглаштириш ёки локал матн шароитида омонимларни фарқлаш имконини туғдиради. Биринчи 
ҳолатда корпус воқеалар иштирокчиларига доир ахборот билан, масалан, киши номлари, вазифа 
(мансаб) ёки фирмалар номи (Mr. Blair, Tony Blair, the prime minister шаклида) билан 
белгиланиши мумкин. Иккинчи ҳолатда кўпмаъноли сўзларни қўллашга доир аниқ ахборот билан 
разметкаланган бўлиши мумкин.
Бугунги кунда лингвистик ахборотни ташувчи матн разметкаси SGML/XML тили негизида 
амалга оширилади. Бунда лавҳадаги (матн сўз, гап) атрибутларни синтактик структуралар 
даражасида функционал аниқлаш нуқтаи назаридан ажратиб олинади. Мазкур бирликлар 
қуйидагича теглар билан чегаралаб олинади:  ва


Nineteen 
fifty­four, 
when 
I
was eighteen years old

... Бироқ SGML/XML лавҳа ва атрибутларнинг синтаксис топшириқларинигина 
бера олади, корпус разметкасида фойдаланиладиган аниқ мажмуани эмас. Сўнгги даврда XML 
асосида бир неча тавсия ишлаб чиқилган, улардан
EAGLES (European Advisory Group on Language Engineering Standards), TEI (Text 
Encoding for Interchange) ва XCES (XML Corpus Encoding Standard) сингарилар аҳамиятга молик. 
Хусусан, EAGLES қоидалари корпусларни яратиш ва расмийлаштириш, уларнинг 
морфосинтактик разметкаси, шунингдек, алоҳида олинган вазиятларда разметкалашнинг аниқ 
ечимларига доир умумий тамойилларини намоён этади. Шунингдек, мазкур тавсияда леммалаш 
ҳам назарда тутилади, аммо леммалаштирилган корпуслар танқислиги боис EAGLES да 
леммалаштириш учун теглар мавжуд эмас. 
EAGLES морфологик разметкани амалга ошириш ва сақлашдан иборат икки имкониятни 
беради: ҳар бир белги алоҳида POS='NN' number='sing' атрибути билан тақдим этилади ёки 
рақамлар белгилар билан мутаносиб келувчи мураккаб морфологик разметка ишлатилади. 
Масалан, 
feats="V3011141101200" (3rd person, singular, finite, indicative, past tense, active, main verb, 
non­phrasal, non­reflexive) феълни англатади. Таъкидлаш керакки, тавсия этилувчи белгилар ва 
уларга тегишли маъноларнинг рўйхати EAGLES тавсияларининг бир қисми ҳисобланади. Лекин 
EAGLES тамойилларида корпусни яратишга оид элементларнинг тайёр жамланмаси мавжуд эмас.
Матнларнинг лингвистик разметкаси учун нисбатан стандарт мувофиқ келувчи XCES нинг 
яқин йилларда ISO TC37/SC4 халқаро стандартига айланиш эҳтимоли катта. Гап шундаки, XCES 
лингвистик Х разметкаларининг ақлли моделларини яратиш элементларини таъминловчи 
метаабстракт моделини тақдим этади. Бу эса EAGLES қоидаларига тўла мувофиқ келади. Бунинг 
учун  узвларининг абстракт теглари ҳамда уларнинг  белгилари аниқланади. Ҳар бир 



Download 7,21 Mb.

Do'stlaringiz bilan baham:
1   ...   114   115   116   117   118   119   120   121   ...   398




Ma'lumotlar bazasi mualliflik huquqi bilan himoyalangan ©hozir.org 2024
ma'muriyatiga murojaat qiling

kiriting | ro'yxatdan o'tish
    Bosh sahifa
юртда тантана
Боғда битган
Бугун юртда
Эшитганлар жилманглар
Эшитмадим деманглар
битган бодомлар
Yangiariq tumani
qitish marakazi
Raqamli texnologiyalar
ilishida muhokamadan
tasdiqqa tavsiya
tavsiya etilgan
iqtisodiyot kafedrasi
steiermarkischen landesregierung
asarlaringizni yuboring
o'zingizning asarlaringizni
Iltimos faqat
faqat o'zingizning
steierm rkischen
landesregierung fachabteilung
rkischen landesregierung
hamshira loyihasi
loyihasi mavsum
faolyatining oqibatlari
asosiy adabiyotlar
fakulteti ahborot
ahborot havfsizligi
havfsizligi kafedrasi
fanidan bo’yicha
fakulteti iqtisodiyot
boshqaruv fakulteti
chiqarishda boshqaruv
ishlab chiqarishda
iqtisodiyot fakultet
multiservis tarmoqlari
fanidan asosiy
Uzbek fanidan
mavzulari potok
asosidagi multiservis
'aliyyil a'ziym
billahil 'aliyyil
illaa billahil
quvvata illaa
falah' deganida
Kompyuter savodxonligi
bo’yicha mustaqil
'alal falah'
Hayya 'alal
'alas soloh
Hayya 'alas
mavsum boyicha


yuklab olish