MAKTUBDAN OVOZGA QOIDALAR
Morf qoplamali tahlillarning barcha so'zlarning 99 foizidan ko'prog'ini qamrab olish qobiliyatini biz allaqachon ta'kidladik. Binobarin, harfdan tovushga tahlil qilish faqat morf qoplamasi mavjud bo'lmaganda amalga oshiriladi, chunki tajriba shuni ko'rsatadiki, harfdan tovushga tahlil qilish natijasida olingan fonemalar torlari morf tahlili orqali topilgandan pastroq. Harfdan tovushga yozishmalar morf chegaralarida qo'llanilmasligi sababli, harfdan tovushga tahlil qilinadigan har qanday so'z aniqlanadigan aniqlangan affikslarni echib tashlagan bo'lishi kerak, bu esa keyingi tahlil uchun taxmin qilingan ildiz so'zini qoldirishi kerak. Shunday qilib, "teatrlik" so'zi "teatr + ic + al + ity" ga tahlil qilinadi. Uchta qo'shimchadan iborat qator ixcham kategorik grammatika bilan to'g'riligi uchun sinovdan o'tkaziladi. Shunday qilib, "'ity" terminal qo'shimchasi sifatlardan otlarni, "al" medial qo'shimchasini hosil qiladi. ismlardan yoki sifatlardan sifat yasaydi va "ic" bosh qoshimchasi otlardan sifat yasaydi. Shu tarzda qo'shimchalar nutq qismlari xususiyati jihatidan bir-biriga mos keladigan ko'rinadi va shuning uchun qo'shimchalar qatori qabul qilinadi.
Qo'shimchalarni echib bo'lgandan so'ng, qoldiq ildiz ma'lum harflar satridan fonemaga satrlariga mos keladigan taniqli harflar qatorini qidiradi. Birinchidan, undosh klasterlar qidiriladi, chunki ularning talaffuzi unli klasterlarga qaraganda barqaror, birinchi navbatda eng uzun satr. Demak, "chr" qatori avval "Rojdestvo" da, "ch" esa "cherkov" da topilgan. Ovozli yozishmalar unchalik ishonchli emas va ular matn va kompyuter fonemasi muhitlaridan foydalangan holda umumiy jarayonda oxirgi marta o'rnatiladi. Ovozli digraflar konvertatsiya qilishning eng qiyin satrlari bo'lib, "ea" kamida 14 ta qoida muhitiga bo'ysunadi. Bunga "etib borish", "ko'z yoshi", "biftek", "teri" va "teatrlik" kiradi. Allen va boshqalar tomonidan to'liq algoritm tasvirlangan. (1987).
Mashinada o'qiladigan shaklda katta leksikonlarning paydo bo'lishi zamonaviy hisoblash platformalari va qidirish algoritmlari bilan birgalikda morfemik tahlil protseduralarini samarali ravishda to'ldiruvchi harflar-tovush qoidalari to'plamlarini keltirib chiqardi. Qoida yozishmalarini oqilona tanlashga imkon beradigan batafsil ma'lumot tahlillari (Lucassen va Mercer, 1984) amalga oshirildi va qoida kontekstidagi har bir harf yoki fonemaning qoidaning aniqligiga qo'shgan hissasini miqdoriy baholash bilan birga amalga oshirildi. Muayyan dasturlar uchun so'zlarning kerakli talaffuzlari, ular morf qoplamasi yoki harfma-tovush protseduralari bilan tahlil qilinadimi, butun so'zni to'g'ridan-to'g'ri leksikonga joylashtirish va shu sababli uni istisno sifatida ko'rib chiqish maqsadga muvofiqdir. Ayniqsa, qiyin bo'lgan aniq dastur - familiyalarning talaffuzi,
tan telefon ma'lumotnomasi, bu erda ko'plab xorijiy nomlar topilgan. Bu holda etimologiya birinchi navbatda imlo orqali trigramma statistikasi yordamida aniqlanadi (uchta qo'shni harf satrlarining ehtimollik baholari) (Cherch, 1986; Liberman va Cherch, 1992). Keyin har bir til uchun maxsus qoidalardan foydalanish mumkin. Shunday qilib, "Axilles" dagi "ch" "Cherkov" dagi "'ch" dan farqli ravishda talaffuz qilinadi. Qizig'i shundaki, asosiy tilning fonotaktikasini qisman aks ettiradigan oddiy harflar statistikasidan foydalanish bilan birlashtirilishi mumkin. familiyalarning chastotali taqsimoti oddiy so'zlardan farqli o'laroq, bu juda qiyin vazifada yaxshi natijalarga erishish uchun boshqa cheklovlar.
Do'stlaringiz bilan baham: |