Alisher Navoiy nomidagi Toshkent
davlat o‘zbek tili va adabiyoti
universiteti
“O‘ZBEK MILLIY VA TA’LIMIY
KORPUSLARINI YARATISHNING NAZARIY
HAMDA AMALIY MASALALARI”
Xalqaro ilmiy-amaliy konferensiya
Vol. 1
№. 01 (2021)
99
бўлиб боради. Ўзбек тили миллий корпусини яратишдаги семантик р азметкада матнни қайта
ишлаш воситаларининг етарлича такомилга етмаганлиги, ҳозирча семантик ва синтактик
ахборотни автоматик тарзда киритиш имконини чегаралайди. Ваҳоланки, ўн миллионлаб сўздан
иборат корпусни қўлбола усулда разметкалаш – ҳақиқатдан йироқ ҳолат; мавжуд йирик корпуслар
разметкасида эса, леммаларни белгилаш (лемматизация) билан кифояланилган. Бу борада илмий
манбаларда қайд этилган газета корпуси (А.А.Поликарпов раҳбарлигида: матбуот ва “оммавий”
адабиёт корпуси; Финляндиянинг Тампера шаҳридаги университетда яратилган рус корпуси
(Х.Томмола ва М.Михайлов раҳбарлигида)ни мисол қилса бўлади. Мазкур корпусларда
морфологик разметка бўлмаганлиги сабабли, алоҳида грамматик маъноларни излашдан маъно йўқ.
Бинобарин, морфологик ва морфологик-синтактик белгиларни ифода этувчи мукаммал разметка
катта меҳнатни талаб қилади. Бироқ у қадар катта бўлмаган корпус учун ярим автомат разметкани
фақат морфологик, синтактик ва семантик ахборот устида амалга ошириш мумкин.
СанктПетербург университети корпуси, ИППИ корпуси, Прага корпуси, Хельсинки
корпусининг аннотацион лойиҳаси ХАНКО, FrameNet корпуси сингариларни бунга мисол қилиш
мумкин. Синтактик разметкаланган Penn Treebank матнлари эса ўз даврида Браун корпусига
асосланиб тўпланган. Ҳолбуки, матнларни қайта ишлаш технологияларининг такомили катта
миқдордаги ахборотни автоматик тарзда киритиш, хусусан, объектларни номларига кўра
тенглаштириш ёки локал матн шароитида омонимларни фарқлаш имконини туғдиради. Биринчи
ҳолатда корпус воқеалар иштирокчиларига доир ахборот билан, масалан, киши номлари, вазифа
(мансаб) ёки фирмалар номи (Mr. Blair, Tony Blair, the prime minister шаклида) билан
белгиланиши мумкин. Иккинчи ҳолатда кўпмаъноли сўзларни қўллашга доир аниқ ахборот билан
разметкаланган бўлиши мумкин.
Бугунги кунда лингвистик ахборотни ташувчи матн разметкаси SGML/XML тили негизида
амалга оширилади. Бунда лавҳадаги (матн сўз, гап) атрибутларни синтактик структуралар
даражасида функционал аниқлаш нуқтаи назаридан ажратиб олинади. Мазкур бирликлар
қуйидагича теглар билан чегаралаб олинади: ва
:
Nineteen
fiftyfour,
when
I
was eighteen years old
,
... Бироқ SGML/XML лавҳа ва атрибутларнинг синтаксис топшириқларинигина
бера олади, корпус разметкасида фойдаланиладиган аниқ мажмуани эмас. Сўнгги даврда XML
асосида бир неча тавсия ишлаб чиқилган, улардан
EAGLES (European Advisory Group on Language Engineering Standards), TEI (Text
Encoding for Interchange) ва XCES (XML Corpus Encoding Standard) сингарилар аҳамиятга молик.
Хусусан, EAGLES қоидалари корпусларни яратиш ва расмийлаштириш, уларнинг
морфосинтактик разметкаси, шунингдек, алоҳида олинган вазиятларда разметкалашнинг аниқ
ечимларига доир умумий тамойилларини намоён этади. Шунингдек, мазкур тавсияда леммалаш
ҳам назарда тутилади, аммо леммалаштирилган корпуслар танқислиги боис EAGLES да
леммалаштириш учун теглар мавжуд эмас.
EAGLES морфологик разметкани амалга ошириш ва сақлашдан иборат икки имкониятни
беради: ҳар бир белги алоҳида POS='NN' number='sing' атрибути билан тақдим этилади ёки
рақамлар белгилар билан мутаносиб келувчи мураккаб морфологик разметка ишлатилади.
Масалан,
feats="V3011141101200" (3rd person, singular, finite, indicative, past tense, active, main verb,
nonphrasal, nonreflexive) феълни англатади. Таъкидлаш керакки, тавсия этилувчи белгилар ва
уларга тегишли маъноларнинг рўйхати EAGLES тавсияларининг бир қисми ҳисобланади. Лекин
EAGLES тамойилларида корпусни яратишга оид элементларнинг тайёр жамланмаси мавжуд эмас.
Матнларнинг лингвистик разметкаси учун нисбатан стандарт мувофиқ келувчи XCES нинг
яқин йилларда ISO TC37/SC4 халқаро стандартига айланиш эҳтимоли катта. Гап шундаки, XCES
лингвистик Х разметкаларининг ақлли моделларини яратиш элементларини таъминловчи
метаабстракт моделини тақдим этади. Бу эса EAGLES қоидаларига тўла мувофиқ келади. Бунинг
учун узвларининг абстракт теглари ҳамда уларнинг белгилари аниқланади. Ҳар бир
Do'stlaringiz bilan baham: |