Inglizcha matn fragmentining morfologik analiz namunasi
Language 0/11 engineering 0/11 is 0/31 the 0/71 core 0/11 of 0/51 information 0/11 technology 1/11 and 0/61 information 0/11 technology 1/ 11 will 0/31 be 0/31 the 0/71 key 0/1121 industry 1/11 of 0/51 the 0/71 next 0/21 decades 1/11 .
Bu yerda ayrim so‘zlar grammatik omonimiyaning hisobiga dastlab («tahlil natijalari»da) ikki xil raqam bilan berilgan, so‘nggi bosqichda ularning kontekstdagi holatidan kelib chiqib aniq tasnifi keltiriladi. Yuqoridagi matn fragmentida shunday so‘zlar sirasiga «state» so‘zini misol qilish mumkin. «State» so‘zi dastlabki tahlilda 0/1132 kodi orqali beriladi, bunda «0» raqami so‘zda qo‘shimchaning yo‘qligini (nol morfemani), «11» raqami ot so‘z turkumini, «32» raqami esa hozirgi zamon shaklidagi fe’l yoki infini- tivni bildiradi. Bunga o‘xshash yana bir so‘z «wished» so‘zining dastlabki tahlilida bir qiymatli bo‘lmagan ma’lumotlarga ega bo‘lamiz. «Wished» so‘zi 0/2433 kodi bilan beriladi, bunda «0» raqami yuqoridagidek nol morfemani, «24» fe’l asosida hosil bo‘lgan sifat turkumini, «33» o‘tgan zamon shaklidagi fe’lni anglatadi.
So‘zlarning qaysi turkumga mansubligini aniqlashda chappa (ters) lug‘atlardan foydalaniladi. Bunga turli xil turkumga mansub so‘zlarning morfologik analizini ko‘rsatuvchi inglizcha so‘z shakllarining grammatik chappa lug‘ati yaqqol misol bo‘la oladi.
Morfologik analizning mantiqiy davomi sintaktik analiz hisoblanadi. Sintaktik analiz morfologik analiz ustiga quriladi. Bunda sintaktik analiz turli xil modellar asosida amalga oshirilishi mumkin. Formal grammatika asoschisi bo‘lgan Noam Chomskiy belgilagan algoritm o‘zining optimalligi bilan boshqa sintaktik modellardan ajralib turadi. Matnning avtomatik sintaktik analizi masalasi XX asrning 50-yillarida bir tildan boshqa tilga kompyuter yordamida tarjimani amalga oshiruvchi tizimlarga oid tadqiqotlar bilan uzviylikda o‘rganilgan. Zero, matn tarjimasida gaplarning sintaktik strukturasi, sintaktik aloqasi hal qiluvchi ahamiyat kasb etadi. Dastlabki sintaktik analiz protseduralari ancha cheklangan boiib, unda faqat gap- ning strukturasi analizi e’tiborga olingan, bunda har qanday gap so‘zlarning muayyan ketma-ketligi asosida tashkil topgan qurilma sifatida baholangan. Gap strukturasining formallashgan modeli sifatida, odatda, tobelik daraxti (sentence tree)dan foydalanilgan.6 Shuni alohida ta’kidlash zarurki, sintaktik analizning samaradorligi hozirgi kunda juda yuqori saviyada, ular faqat avtomatik tarjima sistemasi ishlab chiqilgan tillarda maksimal darajada ishlatilmoqda. Lekin haligacha gapning to‘laqonli semantik analizi yuza- sidan sezilarli natijalarga erishilgani yo‘q. Bu muammo kompyuter lingvis- tikasidagi ko‘plab muammolar bilan tutashib ketadi. Jumladan, inson tafak- kurini modellashtirish, sun’iy intellekt tizimi, semantik freym, Word-net kabilar. Agar sanab o‘tilgan muammolar o‘z yechimini topsa, semantik va konseptual analizning avtomatik tizimi ham to‘laqonli ishlaydi.
Kompyuterdagi avtomatik tarjima kompyuter lingvistikasining eng za- monaviy yo‘nalishlaridan biri hisoblanadi. Hozirgi kunda dunyoda keng tarqalgan jahon tillari uchun avtomatik tarjima dasturlari ishlab chiqilgan. Jumladan, ruschadan inglizchaga, inglizchadan ruschaga, ruschdan fran- suzchaga yoki aksi tarzida dasturlar yaratilgan. Bunday dasturlar sirasiga SOCRAT, PROMPT, MAGIC GOODDY kabilar kiradi. Ular 2 xil ta’minotga asoslanib ishlaydi: 1) lingvistik ta’minot - bunda mavjud tillarning umumiy leksikoni kiritiladi, uning grammatikasi joylashtiriladi, bir so‘z bilan aytganda, maiumotlar bazasi yaratiladi; 2) programmaviy ta’minot bunda bir tildan ikkinchi tilga tarjima qilish algoritmi va kompyuter analizi ishlab chiqiladi (maxsus programmalashtirilgan tillar yordamida).
Do'stlaringiz bilan baham: |