Detektor: "Hey Siri" ni tinglash
IPhone yoki Apple Watch-dagi mikrofon sizning ovozingizni soniyasiga 16000
tezlikda bir lahzali to'lqin shakllari namunalariga aylantiradi. Spektrni tahlil qilish
bosqichi to'lqin shaklidagi namunaviy oqimni freymlar ketma-ketligiga aylantiradi,
ularning har biri taxminan 0,01 sek ovoz spektrini tavsiflaydi. Bir vaqtning o'zida
ushbu ramkalarning yigirmaga yaqini (0,2 sek audio) akustik modelga beriladi, bu
chuqur neyron tarmoq (DNN), bu akustik naqshlarning har birini nutq tovushlari
sinflari bo'yicha ehtimollik taqsimotiga aylantiradi: "Hey Siri" iborasi, jimlik va
boshqa nutq, jami 20 ga yaqin ovoz sinflari.
DNN asosan matritsalarni ko'paytirish va logistik chiziqli bo'lmaganlardan
iborat. Har bir "yashirin" qatlam DNN tomonidan filtrlash banki yozuvlarini ovozli
sinflarga o'tkazish uchun o'qitish paytida topilgan oraliq vakolatdir. Yakuniy
nochiziqlik asosan Softmax funktsiyasidir (masalan, umumiy logistik yoki
normallashtirilgan eksponent), ammo biz jurnal ehtimollarini istaganimiz uchun
haqiqiy matematik biroz soddalashtirilgan.
Rasm 4.3. "Hey Siri" ni aniqlash uchun ishlatiladigan chuqur neyron tarmoq.
Yashirin qatlamlar aslida to'liq bog‘langan. Yuqori qatlam vaqtinchalik integratsiyani
amalga oshiradi. Haqiqiy DNN chiziqli oynada ko'rsatiladi.
4.3-rasm. "Hey Siri" ni aniqlash uchun ishlatiladigan chuqur neyron tarmoq
DNNning har bir yashirin qatlamidagi birliklar sonini "Hey Siri" detektori
ishlaganda mavjud bo'lgan hisoblash manbalariga mos ravishda tanlaymiz. Biz
foydalanadigan tarmoqlarda odatda beshta yashirin qatlam mavjud bo'lib, ularning
hajmi bir xil: 32, 128 yoki 192 birlik, xotira va quvvat cheklovlariga bog‘liq. IPhone-
da biz ikkita tarmoqdan foydalanamiz - biri dastlabki aniqlash uchun, ikkinchisi esa
ikkinchi darajali tekshiruvchi sifatida. Dastlabki detektor ikkilamchi tekshiruvchiga
qaraganda kamroq birliklardan foydalanadi.
Akustik modelning chiqishi har bir kvadrat uchun fonetik sinflar bo'yicha
ballarning taqsimlanishini ta'minlaydi. Fonetik sinf, odatda, "old qismning old
qismidagi yuqori qism oldidan / s / ning birinchi qismidan keyin".
Biz "Hey Siri" ni aniqlamoqchimiz, agar akustik modelning natijalari maqsadli
ibora uchun to'g‘ri ketma-ketlikda yuqori bo'lsa. Har bir kvadrat uchun bitta ball
to'plash uchun biz ushbu mahalliy qiymatlarni vaqt o'tishi bilan to'g‘ri ketma-ketlikda
to'playmiz. Bu 2-rasmning yakuniy (yuqori) qatlamida xuddi shu birlikka va
keyingisiga ketma-ket ulanishga ega bo'lgan takrorlanadigan tarmoq sifatida
ko'rsatilgan. Har bir birlik ichida maksimal operatsiya va qo'shimcha mavjud:
Fi, t - bu modelning i holati uchun to'plangan ball
qi, t - bu akustik modelning chiqishi - t vaqtidagi akustik naqshni hisobga olgan
holda ith holati bilan bog‘liq fonetik sinf uchun jurnal ballari.
si - bu i shtatida qolish bilan bog‘liq xarajatlar
mi - i holatidan o'tish uchun xarajatlar
Si va mi ikkalasi ham ma'lumotlarning tegishli yorliqlari bilan segmentlarning
davomiyligini tahlil qilishga asoslangan. (Ushbu protsedura dinamik dasturlash
dasturidir va Yashirin Markov modellari - HMMlar haqidagi g‘oyalar asosida olinishi
mumkin.)
4.4-rasm. Detektor orqali harakatlanayotganda akustik naqsh
Hey Siri dasturi
Do'stlaringiz bilan baham: |