MUHAMMAD AL-XORAZMIY NOMIDAGI TOSHKENT AXBOROT TEXNOLOGIYALARI UNIVERSITETI SAMARQAND FILIALI
Kompyuter Injiniring Fakulteti
Mustaqil ish
Mavzu: Avtomatik nutqni tanish tizimlari va unlardan foydalanish usullari.
Fan: Nutqni tanish algoritmi
Samarqand-2021
Nishabli omborda kompilyatsiya uchun ko'rsatmalar mavjud bo'lgan o'rnatish fayli mavjud, unda quyidagilar yoziladi:
go to tools/ and follow INSTALL instructions there.
go to src/ and follow INSTALL instructions there.
Ishga tushirish
Kaldi tanib olish tizimi bilan birgalikda tizimdan foydalanishning ko'plab misollarini taqdim etadi. Barcha misollar egs papkasida joylashgan.
Oflayn rejim (matnni transkripsiya qilish, wav faylida ishga tushirish):
WAV faylini aniqlash uchun mo'ljallangan misollarda maxsus skript mavjud. Quyidagi yo'lda: egs/apiai_decode/s5/recognize-wav.sh. tan olish uchun ushbu skript uni WAV fayliga olib boradi. Misol uchun:
./recognize-wav.sh sample.wav
Mozilla DeepSpeech
DeepSpeech-nutqni matnga aylantirish uchun ochiq manba vosita. Baydu chuqur nutq tadqiqotlari asosida kompyuterni o'rganish usullari bilan o'rgatilgan modelni o'rganish uchun foydalaniladi. DeepSpeech TensorFlow loyihasidan foydalanadi dasturni osonlashtirish uchun
O'rnatish
Barcha loyiha github-da joylashgan: https://github.com/mozilla/DeepSpeech#getting-the-pre-trained-model
O'rnatish uchun:
pip install deepspeech
yoki
pip install deepspeech-gpu
yoki
git clone https://github.com/mozilla/DeepSpeech
Modelni tanib olish uchun yuklab oling:
wget -O – https://github.com/mozilla/DeepSpeech/releases/download/v0.1.1/deepspeech-0.1.1-models.tar.gz | tar xvfz -
Ishga tushirish
Oflayn rejim (matnni transkripsiya qilish, wav faylida ishga tushirish):
deepspeech models/output_graph.pb my_audio_file.wav models/alphabet.txt
Tizim taqqoslash
Sifat metrikalari
WER, fonem darajasida emas, balki so'z darajasida hisoblangan" Levenstein masofa " deb nomlangan qiymatdan olingan. Levenshteynning masofasi bitta belgini kiritish, bitta belgini olib tashlash va bitta belgini boshqasiga almashtirish uchun zarur bo'lgan operatsiyalarning minimal soni.
WER = (S + D + I)/N = (S + D + I)/(S + D + C)
S-so'zlarni almashtirish operatsiyalari soni
D-so'zni olib tashlash operatsiyalari soni
I-so'zlarni kiritish operatsiyalari soni
C - to'g'ri tan olingan so'zlar soni
N-so'zlarning umumiy soni
SER-tanib olish tizimining aniqligini aniqlash uchun umumiy metrik. SER-noto'g'ri tan olingan jumlalar sonining barcha jumlalar soniga nisbati.
SER = Sv / S
SV-xatolar holda tan takliflar soni
S-takliflarning umumiy soni
SF tizimni aniqlash tezligini aniqlash uchun umumiy o'lchovdir. SF tan olingan signalning davomiyligi uchun tan olingan vaqt nisbati ko'rsatkichidir.
SF = Trasp / T
Trasp-signalni aniqlash vaqti
T-muddati, Real vaqt ulushi o'lchanadi
Do'stlaringiz bilan baham: |