Yashirin Markov modellari bilan nutqni aniqlash
turli uzunlikdagi vektorlarning ikkita to'plamini taqqoslashda va vektorlar fazosida
katta lug'atlar, ko'p sonli yangi ma'ruzachilar va, albatta, doimiy nutq.
masofa komponenti doimiy bo'lib qoladi va yana o'zboshimchalik bilan qoladi, eshitish tizimi esa boshqalarni e'tiborsiz qoldirib, spektrdan
kerakli komponentlarni chiqaradi.
xususiyat fazosida ehtimollik zichligi funksiyalaridan foydalanadigan holatlar.
N.G. Zagoruiko [14]. G'arbda bu usul mustaqil ravishda ham taklif qilingan, ammo 10 yildan keyin [15].
diagonal, endi to'rtburchak N, M, bu erda M ikkinchi standartning uzunligi. Dinamik dasturlash usuli sizga (0,0)
nuqtadan (N, M) nuqtaga o'tishda minimal balandliklar yig'indisini yoki to'plangan masofani hisoblash imkonini
beradi va agar segmentatsiya uchun kerak bo'lsa, ushbu masofa olingan yo'lni tiklashga imkon beradi. . Olingan
yig'indi odatda yo kesib o'tgan tugunlar soni yoki so'z uzunliklari yig'indisi yoki qisqaroq so'z uzunligi bilan
normallashtiriladi va ikki gap orasidagi masofa sifatida qabul qilinadi. Albatta, amaliy tizimlarda qo'llaniladigan
ilovalar mavjud
nutq signali farqlangan edi, garchi usulning sun'iy xususiyatini hisobga olgan holda, joriy etish kerak edi
nutqni aniqlash tizimlari, ammo zamonaviy tizimlarda boshqa shaklda qo'llanilishi davom etmoqda
hisoblar. Ko'rib chiqilgan usul 90-98% ehtimollik bilan ideal sharoitda so'zlovchiga bog'liq variantda 100-300 so'zni
tanib olish imkonini beradi. Tizimga ma'ruzachidan mustaqil sifatlarni berish uchun har bir so'z uchun turli
ma'ruzachilarning bir nechta standartlari qayd etiladi (o'quv jarayonida, agar u tan olinmasa, yangi
ma'ruzachidan standart qo'shiladi). Bundan tashqari, ma'ruzachilarga nisbatan standartlarni normallashtirish,
shuningdek, dinamiklarni klasterlash sxemalari mavjud. Bu usulning hayot faoliyatida o'xshashligi yo'qligi aniq
960
Machine Translated by Google
Biroq, lug'at so'zlarini fonemalarga mos keladigan holatlar bilan ifodalash dinamik dasturlash usuliga nisbatan tanib
olish sifatining sezilarli yaxshilanishiga olib kelmadi.
Buning uchun oddiy tushuntirish mavjud. Biz o'zgarmas fonema deb o'ylagan narsamiz aslida tovushlarning butun oilasi
bo'lib, ba'zan xususiyat vektorlari tarkibida juda farq qiladi. Axir, nutq apparati keyingisini tuzatish uchun ba'zi pozitsiyalarda
muzlamaydi
I.B. Tampel
fragmentlarning davomiyligini tahlil qiladi va ularning histogrammalarini tuzadi. Davomiylik gistogrammalarini bilish
riatsiyalar faqat sonli yechimlarga imkon beradi.
Bunday holda, ular odatda diagonal kovariatsiya matritsalari bilan Gauss funktsiyalari yig'indisi bilan yaqinlashadi. Kovariatsiya
matritsalarining diagonalligi o'qitish parametrlari sonini kamaytiradi va ba'zilarini soddalashtiradi.
Har bir fonema uchun xususiyat vektorlarini alohida to'plamlarga ajrating, ular uchun qurish qiyin emas
usuli "majburiy tekislash" (majburiy tekislash) deb ataladi, u juda foydalanish imkonini berdi
ushbu murakkab tushunchaning ta'rifi). Nutq materiali ketma-ketlikka tarjima qilingandan keyin
Keyingi bosqichda nutq bazasining qolgan, segmentlanmagan qismi ishlatiladi. Gap shundaki, olingan holatlar nutqni
aniqlash uchun hali etarlicha aniq bo'lmasa-da, ular mumkin
Nutq signaliga qo'llanilganda, Markov zanjiri holatlar o'rtasida diskret vaqtlarda bir yo'nalishli o'tish jarayoni sifatida
tuziladi, keyingi holatga o'tish ehtimoli faqat hozirgi holatga
bog'liq va jarayon qanday holatlarga bog'liq emas.
Trening uchun nutq ma'lumotlar bazasidan foydalaniladi (nutq signallarini yozish va ularga mos keladigan
ma'lumotlar bazasining xususiyat vektorlari ketma-ketligini yaratish ehtimolini maksimal darajada oshirish maqsadi
Axborot texnologiyalari, mexanika va optika ilmiy-texnik byulleteni, 2015 yil, 15-jild, ÿ6
Tasodifiy jarayonlarga qo'llaniladigan Markov zanjirlarini o'rganish va tanib olishning matematik apparati o'tgan asrning
60-yillari oxirida ishlab chiqilgan va 70-yillarning boshlarida nutqda qo'llanilgan.
bema'nilik.
har bir fonema, unda ma’lum vaqt turgandan keyin berilgan fonemaga mos keladigan holatdan chiqib ketish ehtimolini hisoblash
qiyin emas. Davlat parametrlarining birinchi baholarini olgandan so'ng (ehtimollik zichligi funktsiyalari va ehtimollar)
Keling, o'quv jarayonini sifat darajasida tasvirlaylik, ya'ni. zichlik funksiyalarini olish usuli
Gauss funktsiyalari to'plami bilan yaqinlashtirilgan ehtimollik zichligi funktsiyalari. Ayni paytda dastur
katta ma'lumotlar bazalari va quyida ko'rinib turganidek, nutq ma'lumotlar bazalarining hajmi har doim ham etarli emas.
to'liq matritsalar uchun bo'lgan ba'zi muammolarning analitik echimlarini ta'minlovchi algoritmlar
davlat zanjirlari.
Shunday qilib, ba'zi bir tovush yoki so'zning Markov modeli xususiyat fazosida ehtimollik zichligi funktsiyalari va o'tish
ehtimoli aniqlangan bir yoki bir nechta ketma-ket holatlarni ifodalaydi. Ehtimollik zichligi funksiyalari kvantlangan xususiyat
fazosi uchun diskret shaklda yoki uzluksiz shaklda ifodalanishi mumkin. Ikkinchisida
xususiyat vektorlari, dastur, mutaxassis tilshunoslar tomonidan belgilangan chegaralardan foydalanib, to'playdi
aytilgan qismning matni ma'lum bo'lsa, nutq materialini segmentlarga bo'lish juda to'g'ri. Bu
signal [20, 21]. Ushbu davr uchun SSSR va G'arbdagi fanni ajratib, shuni ta'kidlaymizki, G'arbda bu ancha istiqbolli usul dinamik
dasturlash usulidan ustun keldi [15], ya'ni dinamik dasturlash usuli uning qiymati nolga yaqinlashganda paydo bo'ldi.
holatlar ehtimoli va keyingi holatga o'tish ehtimoli.
o'tish), parametrlarni qayta baholash uchun Baum-Welsh [22, 27] yoki Viterbi [22, 27] algoritmidan foydalaning.
oldingi vaqtlarda [22] (1-rasm).
Biroq, bu talab noto'g'ri holatning umr bo'yi gistogrammalariga olib keladi [23-26] va zamonaviy
tizimlarda undan voz kechilgan. Keyingi holatga o'tish ehtimoli hozirgi holatda o'tgan vaqtga bog'liq bo'lgan modellar bir jinsli
bo'lmagan Markov yoki yarim Markov deb ataladi.
matnlar), ularning bir qismi tajribali tilshunoslar tomonidan bo'lingan (belgilangan) biz Markov modellarini qurmoqchi bo'lgan
birliklar yoki qismlarga (odatda, bu nozikliklarga kirmasdan fonemalardir)
Guruch. 1. To'rt holatga ega Markov zanjiri
961
Machine Translated by Google
ma'lumotlar bazasini tashkil etuvchi vektorlar bilan o'rtacha xarakteristikalar bo'yicha yaqinlashish uchun xususiyatlar. FROM
[32, 33].
Moslashuv deganda tanib olish tizimining modellarini almashtirish va buzish tushuniladi, ya'ni. funktsiyalari
NUQQNI AVTOMAT TANISH...
minimal darajada etarli. Shunday qilib, 80 000 dan ortiq trifonlar ko'rinmas yoki ko'rinmas, ammo tanib olish
tizimining ishlashi paytida duch kelishi mumkin.
bu boshqa shunga o'xshash ob'ektlar bilan kesishganligi sababli qo'shimcha xatolarga olib keladi. Odatda uchun
Berilgan fonemaning ehtimolliklari - traektoriyaning bir qismi kengaytirilgan ob'ektning bir turi bo'lib, uning boshida
va oxirida xususiyat vektorlari oldingi va keyingi fonemalar bilan belgilanadi va mumkin.
14545 ta trifonlar 10 martadan ko'proq uchraydi. Yashirin Markovning holatlarini o'rganish uchun bu aniq
90-yillardan boshlab ushbu muammolarni hal qilishga juda ko'p asarlar bag'ishlangan.
Hozirgacha ko'rib chiqilgan kontekstlarga o'xshashlik bo'yicha monofonlar deyiladi.
503 =125000 ga teng. Ushbu trifonlarning ba'zilari bu tilning fonetik qoidalari bilan taqiqlangan va hech qachon
uchramaydi, 95221 trifon qoladi. Ko'rsatilgan ma'lumotlar bazasida, bu ko'proq
monofonni samarali o'rgatish mumkin bo'lgan katta, kichik bir-biriga o'xshash qismlarga aylantiring.
davlatlaringizni quring. Bunday ob'ektlar "trifonlar" deb ataladi, chunki ular ketma-ket uchta fonemani bog'laydi.
Xuddi shunday, "bifonlar" ham aniqlanadi, ular fonemani bilan birgalikda tasvirlaydi
ularning statistikasini baholash uchun etarli. Keling, ingliz tiliga oid [30] asardan ma'lumotlarni taqdim etamiz va
paydo bo'lmaydi. Bu muammo davlat bog'lash usuli bilan hal qilinadi [30, 31]. Ular ehtimollik zichligi funktsiyalari
eng kuchli tarzda bir-biriga mos keladigan holatlarni bog'laydi yoki birlashtiradi. Jarayon
Nutq ma'lumotlariga eng mos keladigan holatning ehtimollik zichligi
fonema, nutq hosil qiluvchi organlarning uzluksiz harakati esa belgilar fazosida uzluksiz traektoriya hosil qiladi.
Shunday qilib, qo'shni fonemalar biz ko'rib chiqilgan fonning talaffuziga ta'sir qiladi. Ushbu ta'sir "koartikulyatsiya"
deb ataladi. Boshqacha qilib aytadigan bo'lsak, bizning ehtimollik zichligi funktsiyamiz uni turli yo'nalishlarda kesib
o'tuvchi xususiyat fazosidagi traektoriyalarning kesilishidan iborat. Turli fonemalar uchun ehtimollik zichligi
funktsiyalari xususiyat maydonida sezilarli darajada mos keladi, bu esa katta xatolarga olib keladi. Shunday qilib,
aniqroq tavsif uchun berilgan fonemaning barcha birikmalarini hisobga olish kerak.
Bitta Markov modeli uchun parametrlar soni 1000-2000 ga yetishi mumkin (shu jumladan
trifonning tavsifi uchta holatdan foydalanadi. Ekstremal holatlar qo'shni fonemalarning ta'siri ostida bo'lgan signal
qismlarini, markaziy holat esa markaziy fonemaning qo'shnilar tomonidan eng kam ta'sirlangan qismini tavsiflaydi.
Biroq, davlatlar soni chuqurlikka mos kelishi shart emas
Buning uchun o'rtacha bosh suyagini olib tashlash va ovoz yo'li uzunligi bo'yicha normalizatsiya qo'llaniladi.
model modellashtirilayotgan ob'ektning sezilarli miqdordagi namunalarini talab qiladi. 10 raqamini tanib olish mumkin
o'tgan asr.
Xususiyatlarni normallashtirish va modelga moslashishni farqlang.
Xususiyatlarni normallashtirish deganda kiruvchi nutq signali yoki uning vektorlarining buzilishi tushuniladi
bir-biridan sezilarli darajada farq qiladi. Bunday ob'ektni bitta holat bilan tavsiflash aqlga sig'maydi, chunki
pastdan, monofonlardan boshlang, monofonni eng kam bir-biriga mos keladigan zichlik funksiyalariga ega bo'lgan
triponlarga bo'ling va yangi triponlarni o'rgatish uchun etarli ma'lumot yo'q bo'lganda tugating. Shunday qilib, faqat
ma'lum bir zichlik funktsiyasini buzadigan trifonlar yaratiladi
Axborot texnologiyalari, mexanika va optika ilmiy-texnik byulleteni, 2015 yil, 15-jild, ÿ6
Zichlik funksiyasi sohasini kesib o'tuvchi xususiyat fazodagi traektoriyani ko'rib chiqing
57 soat nutq va 36 000 dan ortiq jumlalarni o'z ichiga oladi, faqat 22 804 trifon topilgan, ulardan faqat
Olingan tanib olish tizimlari allaqachon dinamik dasturlash usuliga asoslangan tizimlardan sezilarli darajada
ustun edi. Biroq, yangi dinamik yoki boshqa uzatish kanali uchun tanib olish sifati sezilarli darajada kamaydi. Tanish
tizimini qandaydir tarzda yangi ma'ruzachiga juda oz nutq materiali asosida yoki ish jarayonida moslashtirish kerak
edi.
oldingi va keyingi tovushlar bilan alohida akustik ob'ektlar sifatida, buning uchun sizga kerak
kontekstga bog'liqlik - pentafonlarni ko'rib chiqish mumkin [28, 29] va ularni uchta holat bilan modellashtirish yoki
bir nechta holatga ega monofonlarni modellashtirish mumkin. Trifonlar uchun davlatlarni qurish zarurati, ya'ni.
kontekstni hisobga olish, yangi qiyinchilik tug'dirdi - fonetik birliklar soni shunchalik ko'paymoqdaki, hatto
juda katta ma'lumotlar bazalarini ham amalga oshirib bo'lmaydi.
o‘tish matritsalari va Gauss funksiyalarining ehtimollik zichligi funksiyalarini yaqinlashtiruvchi parametrlari). Agar biz
bu raqamni trifonlar soniga (50000-100000) ko'paytirsak, o'quv jarayonida taxmin qilinishi kerak bo'lgan
parametrlarning umumiy soni taxminan 108-109 ga teng bo'ladi .
oldingi yoki keyingi fonemalar. Bifonlar nutq fragmentining boshlanishi yoki oxirini tasvirlashda, shuningdek, trifon
holatlarini qurish uchun etarli ma'lumot bo'lmaganda qo'llaniladi. Fonemalarni hisobga olmagan holda
keng qo'llaniladigan Wall Street Journal Pronunciation Lexicon ma'lumotlar bazasi. Ingliz tili uchun fonemalarning
soni 50 ga yaqin (raqam aniqlanmagan - bir qator umumiy bifonlar yoki trifonlar alohida fonemalarga oldindan
belgilanishi mumkin). Keyin trifonlarning umumiy soni
962
Machine Translated by Google
har qanday yangi, qo'pol tizimning dastlabki bosqichda undan ustun bo'lishi deyarli mumkin emasligi.
Har xil turdagi ko'p qatlamli neyron tarmoqlari boshqa elementar sabab borligini isbotlaydi
I.B. Tampel
yaxshilanish shunchalik ahamiyatsiz ediki, bu tizimlarning sezilarli darajada murakkablashishiga arzigulik emas edi. Shu bilan
birga, erishilgan natijalar nutqni aniqlash tizimlaridan ommaviy tijorat mahsuloti sifatida foydalanishga imkon bermadi, garchi tor
mavzulardagi maxsus ilovalar uzoq vaqt davomida ishlamoqda.
jumladagi so'zlarning ancha erkin tartibi va uning ko'plab so'z shakllarida ifodalangan sintetik tabiati tufayli tan olishga eng
kichik hissa qo'shadi, ular ham talaffuz hajmining iboralar oxirigacha an'anaviy pasayishi tufayli yomon tan olinadi. Bizning
sahifamizga qaytish
mashg'ulot vaqtida optimaldan uzoqda bo'lgan og'irliklar to'plamiga olib keladi.
tabiiy til). Til modeli tildagi so‘zlarning qaysi ketma-ketligi ko‘proq ekanligini aniqlash imkonini beradi
juda kichik edi. Yangi usullar doimiy ravishda erishilgan natijalarni bartaraf eta olmadi
Gauss aralashmalariga asoslangan Markov modeli asosiy model sifatida qabul qilinganligi bilan erishildi
faqat ko'p qatlamli tarmoqlar yordamida kelgan. Bu imkonsizlik yoki ekstremallik bilan bog'liq
(IVR) va kooperativ ma'ruzachi uchun mo'ljallangan tizimlar. Uzluksiz nutqni
tan olish uchun qo'shimcha ravishda til modellari qo'llaniladi. O'zboshimchalik bilan til modeli tilni, aniqrog'i, nutqni
avtomatik aniqlash sifatini yaxshilash uchun zarur bo'lgan tomonlarini rasmiy ravishda tavsiflash imkonini beradi. So'zlarning
mumkin bo'lgan ketma-ketligini aniqlab, biz fonetik bilan solishtirganda til tavsifining yuqori darajalariga ko'tarilamiz va natijada
biz yuqori tartibli tizim munosabatlarini hisobga olishimiz kerak. so'z tavsifi modelida qo'llaniladi
tijoriy ma'noda, bu muhim moliyalashtirish va tez o'sishni nazarda tutadi. Biroq, yaxshi moliyalashtirilganiga qaramay, Markov
modellaridan foydalanish taklif qilingan paytdan beri
Tizim aslida standart Markov modelidagi kabi xususiyatlardan va yuqorida aytib o'tilgan yaxshilanishlardan foydalanganligi
sababli, Gauss aralashmalari asosidagi standart tizimdan ustun turish mumkin emas edi. Bu fakt ilmiy hamjamiyatni shu qadar
hayratda qoldirdiki, 1996 yilda "Nutqni aniqlashda xatolik darajasini oshirish yo'lida" [42] nomli maqola nashr etildi, unda
tushuntirishga harakat qilindi.
yaqinlashuvchi [43], ya'ni, Hatto shu bosqichgacha foydalanilgan bitta yashirin qatlamli tarmoqlar ham mumkin
tori [38, 39]. Modellarni shovqinga moslashtirish uchun Teylor vektor seriyasi ishlatilgan [9, 40].
Do'stlaringiz bilan baham: |