КОРПУС ҲАЖМИ – корпус матнларининг XML тилидаги ҳажми, Мбда
ҳисобланади.
“Korpus lingvistikasi” fanining predmeti, maqsad va vazifalari.
MAQSAD
korpus, korpusning o‘ziga xos xususiyatlari, uning ijtimoiy, leksikologik, taʼlimiy va boshqa sohalardagi ahamiyatini anglatish, korpus lingvistikasi tarixi, korpus turlari, korpuslarning lingvistik qimmatini tushuntirish, o‘zbek tili milliy korpusini yaratishning lingvistik asoslarini tahlil etish va milliy korpusni yaratish malakasini shakllantirish.
VAZIFASI
korpus, korpus lingvistikasi, uning shakllanishi va taraqqiyoti, korpus lingvistikasining bugungi holatini, shuningdek, korpus tuzishning umumiy tamoyillarini tavsiflash, korpus tuzishning lingvistik asoslarini sharhlash, korpuslarning mushtarak hamda o‘ziga xos jihatlarini aniqlash va dalillash, korpus tuzish tamoyillarini ishlab chiqishni o‘rgatish, korpus yaratishda kerakli bo‘lgan lingvistik annotatsiyalash bo‘yicha nazariy va amaliy bilimlarni hosil qilish, korpuslardan maqsadli foydalanish bo‘yicha malaka hosil qilish.
Predmeti.
Korpus lingvistikasi jahon kompyuter lingvistikasining juda tez rivojlanib ketayotgan sohasi bo‘lib, bu borada ancha yutuqlarga erishilgan. Dunyo oliy ta’lim muassasalarida korpus lingvistikasi fan sifatida ham o‘qitiladi. Bu sohaning predmeti korpus yaratish nazariyasi va amaliyoti bo‘lsa, fan sifatida korpusning o‘ziga xosligi, dasturlash asoslari kabi jihatlari o‘qitiladi. Korpus lingvistikasi kompyuter lingvistikasining tarkibiy qismi, til korpusini yaratish, kompьyuter texnologiyasi yordamida ulardan foydalanishning umumiy nazariyasi va amaliyoti bilan shug‘ullanadi. Korpus lingvistikasining predmeti–til korpusi. U ingliz tilida linguistic corpus yoki text corpus kabi atamalar bilan qo‘llanilib, ilmiy adabiyotlarda turlicha ta’riflangan. Demak, til korpusi ma’lum tilning belgilangan davrdagi, xilma-xil janr, rang-barang uslub, hududiy hamda ijtimoiy variantdagi matnlarining elektron shakldagi maxsus dasturiy ta’minot asosidagi yig‘indisidir.
Korpus haqida yuqorida keltirilgan ta’riflar ham u haqida muayyan tilning o‘ziga xos xususiyati va variantlarini aks ettiruvchi bir necha belgi asosida tanlab olingan elektron shakldagi matn parchalari, lingvistik tadqiqot uchun asos vazifasini o‘taydigan tizim deya xulosa qilishga asos bo‘ladi. Til korpusi bugungi kunda jahonda tez taraqqiy etayotgan soha – korpus lingvistikasi mutaxassislari tomonidan ilmiy tadqiqotlar olib borish, til o‘rgatish maqsadida yaratilmoqda. Jahon tillarining juda ko‘pchiligi mukammallik darajasi, matnni (ilmiy) qayta ishlash imkoniyati bilan farq qiluvchi o‘z milliy korpuslariga ega. Zero, bugungi kunda lingvistik tadqiqot va amaliy topshiriqlar echimi uchun til korpuslari zamonaviy tilshunoslikning inkor etib bo‘lmas ish quroliga aylandi, chunki korpus turli lingvistik topshiriqlarni echishga xizmat qiladi.
Teglashning korpus tuzishdagi ahamiyati.
Тег, унинг тур, хусусияти корпус лингвистикаси мутахассислари томонидан кенг тавсифланган. Корпусни оддий электрон тўплам ёки виртуал кутубхонадан фарқловчи, матн устида турли лингвистик амалларни бажаришга имкон берувчи энг асосий омил унинг разметкаси.
лингвистик аннотация ёки корпус разметкаси (инг. linguistic markup) атамаси корпусга матннинг қисми бўлмаган, лекин шу матнга бириктирилган қўшимча маълумот (метаахборот)деб хулоса қилиш ўринли. Бу қўшимча маълумотнинг энг оддий кўриниши сўз туркуми ҳақидаги ахборот.
У қуйидаги шаклда берилиши мумкин:
Осмон (от) остидаги (от) ҳамма (олмош) нарса (от) омонатдир (сифат). (Лао Цзи).
Теглаш корпусни автоматик таҳлил қилишда қўл келади. Матндаги сўзларни
бир марта туркумга ажратсак, исталган тадқиқотни бажаришда (масалан,
корпусдаги барча сифатларни ажратишда) фойдаланиш учун келади.
Теглаш масаласига тўхталишдан олдин тег тизимлари тарихига назар ташлаш
фойдадан ҳоли бўлмайди. Тег лингвистик восита сифатида. SGML тег концепциясини олиб кирди. "Тег" (ингл. tags) - матндаги ишчи изоҳ, у матн ҳақидаги маълумотн иқамраб олади. Корпус ёрдамида статистик ҳисоб жараёнида тилимизда мавжуд сўзларнинг фақат частотасини аниқлаш эмас, балки яна бир қанча маълумотларни олишимиз мумкин. Масалан, ҳар бир сўз билан билан ёнма-ён унинг туркуми белгиланган бўлса, тилда турли нутқий вазиятда сўзтуркумларининг кўлланилиш даражасини аниқлаш ҳам мумкин. Лингвистик теглаш ҳар бир сўзнинг маълум кодга эга бўлиши билан характерланади. Ушбу код тег, сўзни кодлаш эса теггинг (ингл. tagging) дейилади.
Бугунги кунда матнга лингвистик, бошқа маълумотларни қўшишнинг умумэътирофқилинган стандарти мавжуд эмас. Лекин Text Encoding Initiative (TEI) махсус халқаро лойиҳаси разметканинг стандарт воситасини ишлаб чиқишга мўлжалланган. Бунинг учун ҳужжат разметкасининг бутун халқаро қабул қилинган тили - SGML ва XML мавжуд. XML кенгайтмаси119 XML (инг.Extensible Markup Language) базаси асосида қурилган ҳамда луғат тег ва атрибути, қоидалар базасини қамраб олган аниқ грамматика тили. SGML120 эса ҳужжат учун теглаш тилини аниқлайдиган метатил (метаязык). Лингвистик разметканинг ҳам ўз навбатида бир қанча кўриниши мавжуд:
1. Морфологик теглаш кейинги - синтактик ва семантик теглашга асос
бўлувчи аҳамиятли тег ҳисобланиб, инглиз тилида part-of-speech tagging деб аталувчи, сўзларни туркумга ажратувчи разметкадир. Разметканинг ушбу тури теглар ёрдамида амалга оширилиб, теггинг матнда мавжудлик
даражаси, кўлами корпуснинг хусусиятидан келиб чиқиб, ҳар хил бўлади.
Тег қанча кўп бўлса, корпуснинг лингвистик амалларни бажариш имконияти шунча кенг бўлади. Лекин кейинги авлод кориуслари ҳажмининг катталиги сабабли тегни соддалаштириш йўли қулай деб топилди. Кодировканинг соддалаштирилган тизими ортиқча хатоликларнинг олдини олади, морфологик кўп маънолиликни келтириб чиқармайди, бир неча миллион сўзни қамраб олувчи катта матнларнинг разметкаланишини тезлаштиради.
2. Синтактик тег - синтактик таҳлил, парсинг (ингл. parsing) натижаси,
у компонентларининг грамматик структурасига асосланади. Гапдаги
бўлаклар орасидаги синтагмалар график, шажара тарзида, матнда эса улар
отли, феълли ҳамда мураккаб бирикмаларни, содда, қўшма гапни кўрсатувчи очилувчи, ёпилувчи қавслар ёрдамида кўрсатилади. Синтактик разметкага эга корпуслар treebanks номи билан оммалашган. морфологик
разметкада бўлгани каби кейинги пайтда таҳлилни тезлаштириш мақсадида синтактик теглаш ҳам соддалаштирилди, натижада бу усул skeletion parsing номини олди.
Семантик тегнинг ҳам, бошқа разметкаларда бўлганидек, ягона стандарт шакли бўлмаса ҳам, ҳарф, рақам ёки фақат рақамдан иборат кодлардан фойдаланилади. Биринчи ҳарф ёки рақам умумий семантик маънони, кейинги белги эса сўз маъносини янада махсуслаштирувчи кичик семантик гуруҳни ифодалайди. Семантик тег нафақат сўз, балки кўплаб бирикмаларни ҳам семантик гуруҳларга бирлаштиради, бундай пайтда турлибирикувдаги бир маънони билдирувчи бирикмалар битта белги билан кодланади. Идиоматик бирлик (ибора) таркибидаги сўзлар миқдорини билдирувчи ахборот ҳам разметкадан жой олади. Семантик тег корпусдаги сўз маъносининг ихтисослашуви, омонимлик,синонимлик, маъновий гуруҳга ажратиш каби муаммоларни ҳал қилади.
4.Анафорик тег. Матнга ишлов беришда катта қийинчилик туғдирадиган туркум бу олмош, чунки матндаги қайси сўзга ишора қилишига қараб турли маънони билдиради. Ишора сўзнинг матндаги маъносини ажратиб олиш учун разметканинг алоҳида кўринишига эҳтиёж туғилади. Анафорик тег шу хилдаги маълумотни килиш учун керак бўлади. Маъноси олмош билан ифодаланаётган сўз алоҳида кодланиб, кейинги ўринда шу сўзга ишора қилаётган олмош ёнига шу код бириктирилади. Натижада олмошнинг матндаги маъноси аниқланади ҳамда керакли тадқиқотларда корпусга асосланиш имконияти пайдо бўлади. Просодик тег. Овоз транскрипция қилинган корпусда урғу, оҳангни ифодаловчи изоҳ мавжуд бўлади. Разметканинг дискурс деб ҳам аталувчи ушбу тури шарҳ, изоҳ, эслатма, такрорлардаги тўхтамларни билдириш учун ишлатилади.
Корпусни теглаш (аннотациялаш) дастурлаштирилган йўллар билан амалга оширилади. Бунда, аввало, вақтни тежаш, меҳнатни камайтириш назарда тутилса, иккинчидин, матнга автоматик ишлов бериш муаммосига ечим топилади. Ҳозирча анафорик, просодик тег қийинлигича қолиб кетяпти ҳамда теглаш фақат қўлда бажариляпти, кейинчалик бу ҳам дастурлаштирилиши зарур, албатта. Морфологик, синтактик теглаш эса теггер, парсинг ёрдамида амалга оширилса-да, бу дастурларнинг ҳамаксарияти автоматик разметкадан кейинги тузатишни талаб қилади. Чунончи, морфологик омонимия (кўпроқ флектив тилларга хос), синтактик кўпмаънолилик ҳолатида дастур хулосанинг бир неча кўринишини таклиф қилади, тадқиқотчи эса кераклисини танлайди. Янги авлод корпуслари ҳажмининг фавкулодда катталашгани мутахассислар олдига разметканинг тўлиқ автоматлаштирилган турига ўтиш, янги, мукаммал тегтер, парсинглар яратиш вазифасини қўяди. Автоматик морфологик таҳлил (теггер) ёрдамида ҳар бир лексик бирликка (сўз туркуми, лемма, граммема гуруҳи) алоҳида грамматик характеристика (шахс-сон, келишик, бошқа грамматик категория) берилади. Масалан, Браун корпусида сўзнинг частотасини аниқлаш осон.
Do'stlaringiz bilan baham: |