Mustaqil ish
Variant 21
Nutqni sintezlash
Reja:
Nutqni sintez qilish modellari
Neyron tarmoq yordamida nutqni sintez qilish
Nutq sintezatorlarining dasturiy ta'minot
Kalit so'zlar: Nutq sintezi modellari, kompilyatsiya qilingan sintez modellari, formant-ovozli model, sintezator, nutq sintezatori.
Nutqni aniqlash vazifasi juda qiyin va qisman hal qilingan bo'lsa-da, nutqni sintez qilish vazifasi ancha sodda (garchi u erda ham echimini kutayotgan ko'plab muammolar mavjud).
Metroda to'xtash joylarini e'lon qilishda nutqni sintez qilish texnologiyalari qo'llaniladi. Uyali telefon egalari hisobdagi mablag 'qoldig'ini aniqlash, tarif rejalarini almashtirish, xizmatlarni ulash yoki o'chirish va hokazolarni avtomatlashtirilgan xizmat ko'rsatish bo'limi bilan aloqa qilishlari mumkin. Xizmat ko'rsatish bo'limi nutqni sintez qilish texnologiyalari yordamida ovozli aloqa o'rnatadi. Inson ovozi bilan "gapiradigan" ko'plab bolalar o'yinchoqlari chiqarildi. Ushbu o'yinchoqlar, shuningdek, eng oddiy nutq sintezatorlari yoki raqamli magnitafonlardan foydalanadi. Nutqni sintezatorlar avtoulovlar va samolyotlarda o'rnatilgan turli xil ovozli ogohlantirish tizimlarida qo'llaniladi. Bunday tizimlar odamning e'tiborini o'ziga xos tanqidiy vaziyat yuzaga kelishiga, uni avtomobil, samolyot yoki boshqa shunga o'xshash vositalarni boshqarish jarayonidan chalg'itmasdan jalb qilishga imkon beradi. Shuningdek, matnli fayllar tarkibini yoki dastur oynalarida joylashgan matnni ovoz bilan o'qiy oladigan ko'plab kompyuter dasturlari ishlab chiqilgan. Ushbu tizimlar ko'zlari zaif yoki umuman ko'r bo'lganlar uchun foydali bo'lishi mumkin
1 Inson nutqini sintez qilish uchun mavjud bo'lgan barcha usullar ikkita model - kompilyatsiya sintezi modeli va formant-ovozli modeldan foydalanishga asoslangan. Keling, ushbu modellarning xususiyatlarini ko'rib chiqamiz. Kompilyatsiya sintezi modeli ma'ruzachi tomonidan talaffuz qilingan alohida tovushlarning yozib olingan namunalarini birlashtirish (tuzish) orqali nutq sintezini o'z ichiga oladi. Ushbu model yordamida kelajakda nutq sintez qilinadigan tovush fragmentlari ma'lumotlar bazasi tuziladi. Bir qarashda, bu yondashuv juda qiyin bo'lmasligi kerak. Darhaqiqat, GoldWave muharriri singari mikrofon va ovoz muharriri yordamida siz turli xil tovushlar fayllari to'plamini yaratishingiz va so'ngra ularning tarkibini ma'lumotlar bazasida saqlashingiz mumkin.
Matnli xabarlar bilan audio WAV fayllarini yaratish orqali siz Microsoft Windows operatsion tizimini va uning ko'plab dasturlarini, masalan, elektron pochta dasturlari, ishlab chiqish vositalari va boshqalarni ovoz bilan tinglashingiz mumkin. Tarkibiy sintez modeli asosan faqat eng sodda holatlarda, sintezator nisbatan kichik va ma'lum iboralar to'plamini talaffuz qilishi kerak bo'lganda mos keladi. Bu juda yuqori nutq sifatini ta'minlaydi. Ammo, bu tabiiy inson nutqi sintez uchun ishlatilishini eslasak, bu haqiqat ajablanarli emas. Shunga qaramay, tuzilgan tovush parchalari tutashgan joyda, intonatsiya buzilishi va bo'shliqlar bo'lishi mumkin, bular quloqqa seziladi. Bundan tashqari, turli xil intonatsiyalarga ega bo'lgan fonema va allofonlarning talaffuzining barcha xususiyatlarini inobatga olgan holda ovozli qismlarning katta ma'lumotlar bazasini yaratish juda murakkab va zahmatli ishdir.
Rasmiy ovoz modeli
Vokal modeli inson vokal traktini modellashtirishga asoslangan. Ushbu model neyron tarmoqlari yordamida amalga oshirilishi mumkin va o'z-o'zini o'rganishga imkon beradi. Afsuski, vokal traktining xususiyatlarini aniq modellashtirish qiyinligi, shuningdek nutqning intonatsion modulyatsiyasini hisobga olgan holda, formant-ovozli model sintez qilingan nutq tovushlarining nisbatan past aniqligiga ega. Shunga qaramay, ushbu model yordamida tuzilgan zamonaviy nutq sintezi dasturlari juda tushunarli nutqni sintez qiladi va bir qator hollarda ishlatilishi mumkin. E'tibor bering, favqulodda vaziyatlar uchun ovozli ogohlantirish tizimlari sintez qilingan model yordamida yaxshiroq tuziladi, chunki bunday tizimlarda nutqni tushunarli qilish birinchi o'ringa chiqadi. "Kundalik" nutq sintezatorlariga kelsak, formanto-ovozli model ularda ham muvaffaqiyatli qo'llanilishi mumkin. Ushbu model 1-rasmda sxematik tarzda ko'rsatilgan.
Shakl. Nutqni sintez qilishning rasmiy ovoz modeli
Modelni tuzishda odamning artikulyatsiya apparati to'g'risidagi ma'lumotlar, shuningdek fonetika va tilshunoslik ma'lumotlari ishlatilgan. Ko'rib turganingizdek, asl signal sifatida ovoz manbai va shovqin generatorining kombinatsiyasi ishlatiladi. Chopper va rezonansli qurilma vokal traktining ishlashini simulyatsiya qiladi. Ushbu simulyatsiya natijasida nutq ovozi chiqadi. Shu bilan birga, modelning sifati va uning murakkabligi o'rtasida murosaga erishish uchun o'rganilayotgan tizimning quyidagi asosiy parametrlari tanlandi:
asosiy ohang chastotasi;
shovqin chastotasi;
ustalar soni;
har bir formantning markaziy chastotasi;
har bir formantning hissasi.
Ovoz balandligini chastota aniqlaydi. Ushbu parametr sizga savol tug'dirmasligi kerak. Shovqinning chastotasiga kelsak, bu erda tushuntirish kerak. Shovqin paydo bo'lishi - bu juda ko'p jarayonlar, masalan, havo oqimining bosimi va tezligi, havo yo'lining geometrik shakli, materialning akustik xususiyatlari va boshqalar. Nutq shovqini jismoniy darajada to'liq simulyatsiya qilish uchun odam nutq apparati modelini aniq yaratish kerak. juda qiyin vazifa. Shu bilan bir qatorda, siz oq shovqinlardan foydalanishingiz mumkin, ularning spektri ba'zi bir qonunlarga muvofiq taqsimlanadi (masalan, Gauss) ba'zi bir markaziy chastotalar haqida. Bunday holda taqsimot qonuni eksperimental tarzda tanlanadi va bu holda shovqin chastotasi yuqorida aytib o'tilgan markaz chastotasi. Nutqni shakllantirishda ishtirok etadigan faol forma soni eksperimental tarzda tanlanadi va 4 taxminiy qiymat sifatida ishlatiladi. Formant vokal traktidagi rezonans bo'lgani uchun, rezonans chastotasi va konvertga ega. Zarf shakli eksperimental ravishda ham aniqlanadi, birinchi taxminiy ravishda u Gauss taqsimotidir. Har bir formantning hissasi formantning asosiy signalga qanchalik ta'sir qilishini aniqlaydi. Yuqoridagi parametrlarning barchasi, formantslar sonidan tashqari, turli xil tovushlarni olish uchun nutqni shakllantirish paytida o'zgaradi. Nutqni yaxshi sintez qilish uchun batafsilroq model yaratish kerak bo'lsa-da, berilgan parametrlar sintezlangan tovushlarni tushunarli qilish uchun etarli.
2 Nutq sintezining formant-ovozli modelini o'rganish uchun "Synthesis Model" vositasi yaratildi, unda deyarli har qanday unli yoki xirillash ovozi parametrlarni qo'lda o'rnatish orqali sintez qilinishi mumkin. Bundan tashqari, allaqachon ba'zi tovushlarning namunalari (model parametrlari ko'rinishida) tayyorlangan.
Nutqni sintez qilish algoritmi
Nutqni sintez qilish jarayoni quyidagicha.
Efektor xaritasidan foydalangan holda asab tarmog'ining efektor qatlami neyronlarining chiqish darajalari sintez modelining tanlangan parametrlari qiymatlariga aylantiriladi. Efektor xaritasi efektor qatlamining har bir neyroni va sintez modelining o'ziga xos parametri o'rtasidagi yozishmalarni, shuningdek har bir parametrning chegara qiymatlarini aniqlaydi. Effektorlar soni va model parametrlari soni mos kelmasligi mumkin. Agar parametr hech qanday effektorga mos kelmasa, ba'zi bir belgilangan qiymat (standart qiymat) ishlatiladi. Bundan tashqari, modelning hozirgi holatiga ko'ra, chastota makonida signal sintezlanadi: ovoz manbasini ifodalovchi chastotalar chizig'i hosil bo'ladi. Format tuzilishi (rezonanslar) ushbu chastotalar qatoriga joylashtirilgan. Shovqinni sintez qilish uchun tasodifiy amplituda va fazali generator ishlatiladi. So'nggi bosqichda nutq tovushlarini olish uchun teskari Furye konvertatsiyasi amalga oshiriladi. Ko'rib turganingizdek, ba'zi bir farqlar mavjud bo'lsa ham, sintez qilingan tovushlarning spektrogrammalari asl tovushlarning spektrogrammalariga yaqin.
Amaldagi algoritmning cheklovlari Ushbu algoritmdagi to'siq - bu Fourier transformatsiyasining DFT oynasining alohida hajmi. Ushbu model sintez paytida parametrlarni o'zgartirmasdan statik tovushlarni sintez qiladi. Haqiqiy nutqda esa ovoz parametrlari bir tovushdan ikkinchisiga o'tishda o'zgaradi va ular doimiy ravishda o'zgarib turadi. Shubhasiz, DFT oynalarini ishlatishda bunday natijani olish mumkin emas - ovoz parametrlari oynada o'zgarmaydi. Nazariy jihatdan, diskret Furye konvertatsiyasining to'liq qaytaruvchanligi tufayli har qanday signal uchun, shu jumladan parametrlari dinamik ravishda o'zgarib turadigan spektrni olish mumkin. Shuning uchun o'zgaruvchan parametrlar bilan tovush hosil qilish uchun siz DFT oynasining hajmini kichraytirishingiz yoki butun hosil qilingan ramkani emas, balki uning faqat bir qismini olishingiz kerak (signal fazasini sinxronlashni unutmang). Ideal holda, ramka o'lchamini bitta namuna olish vaqtigacha kamaytirish mumkin. Ushbu nutqni yaratish usuli DFTga qaraganda yaxshiroq natijalar beradi, ammo DFTga qaraganda ancha sekinroq. SAS tizimida ishlatilgan avlod usulini tanlashingiz mumkin.
3 Keyinchalik ushbu bobda biz nutq sintezatorlarining bir nechta dasturiy ta'minotini muhokama qilamiz. Ushbu sintezatorlarning aksariyati Microsoft Windows platformasi uchun mo'ljallangan va Microsoft tomonidan ishlab chiqilgan Speech API-dan foydalanadi. Microsoft Windows operatsion tizimi nutqni tanib olish yoki nutqni sintez qilish bilan birga kelmaydi. Biroq, ishlab chiquvchilar bunday vositalarni yuqorida aytib o'tilgan Speech API yordamida yaratishi mumkin. Foydalanuvchilarga kelsak, kompyuterni nutq interfeysi bilan jihozlash uchun unga nutq dvigatellarini o'rnatish kerak. Ma'lumki, bunday modullar Microsoft Office XP ofis dasturlari to'plamining bir qismi sifatida etkazib beriladi, ammo rus tili uchun emas.
Govorilka nutq sintezatori
Ushbu bo'limda biz Govorilka deb nomlangan erkin nutq sintezatorlaridan birini ko'rib chiqamiz. O'rnatilgan nutq modullariga qarab, Govorilka dasturi turli xil ovozlarda va turli tillarda, shu jumladan rus tilida matnni o'qishi mumkin. O'qish uchun dastlabki matnni matnli fayldan, RTF faylidan va Clipboard operatsion tizimining universal buferidan yuklash mumkin. Matnni yuklash uchun Govorilka dastur belgisiga yoki Govorilka dastur oynasiga matnli fayl piktogrammasini ham suring. Dastur Microsoft Windows operatsion tizimida kodlangan kirill alifbosi bilan fayllarni o'qiy oladi. O'qiladigan matn hajmi deyarli cheksizdir. Yuklangandan so'ng, matn, shuningdek, o'qish holati, dastur tomonidan eslab qolinadi. Shunday qilib, agar matn katta bo'lsa, uni qismlarga bo'lib tinglashingiz, hattoki kompyuterni bir muddat o'chirib qo'yishingiz mumkin.
Dastur oynasiga yuklangan matnni ishga tushirish uchun faqat Matnni o'qish tugmachasini bosing (yashil uchburchak bilan) yoki F5 tugmachasini bosing. o'qilgan matn ko'k rang bilan ajratilgan. To'xtatish (F6 tugmasi) va To'xtatib turish / Davom etish (F8 tugmachalari) tugmachalari yordamida siz matnni to'xtatishingiz, vaqtincha to'xtatishingiz yoki o'qishni davom ettirishingiz mumkin. Siz yuklangan matnni ham, uning har qanday qismini ham o'qishingiz mumkin. Matnning bir qismini o'qish uchun sichqoncha yoki klaviatura yordamida ushbu qismni tanlang va keyin Matnni o'qish tugmachasini bosing. Dastur sintez qilingan nutqni faylga WAV yoki MP3 formatida yozib olish orqali nutq sintezi natijalarini saqlashga imkon beradi. E'tibor bering, nutq faylga real vaqtda emas, balki tezlashtirilgan tezlikda yoziladi. Darhaqiqat, faylga nutqni yozib olish operatsiyasini bajarish uchun matnni talaffuz qilish talab qilinmaydi, bu esa odamlarga tanish bo'lgan tezlikda amalga oshirilishi kerak. Shaxsiy so'zlarning talaffuzini tuzatish uchun Govorilka osongina yangilanadigan talaffuz lug'atini taqdim etadi.
MP3 dasturiga matn
Birlashgan tadqiqot (www.research-lab.com) tomonidan ishlab chiqilgan Better Text to MP3 dasturi qiziqarli bo'lib, u avtomatik ravishda matnli fayllarni mashhur WAV va MP3 formatidagi ovozli fayllarga o'zgartirishi mumkin. Keyinchalik, bunday fayllarni Winamp kabi har qanday audio fayl pleeridan foydalanib tinglash mumkin. Shuni ta'kidlash kerakki, Better Text to MP3 dasturining o'zi audiofayl pleyeri sifatida xizmat qilishi mumkin. Dasturning ishi Microsoft SAPI 4.0 nutq interfeysidan foydalanishga asoslangan bo'lib, dastur 11 ta tilda gaplashishi (yoki aniqrog'i, sintezlangan ovoz bilan aytilgan matnni faylga yozishi) mumkin. Nutqning tezligini sozlash ham ta'minlangan. Agar sizning kompyuteringizda rus tilidagi matndan nutqga dasturiy ta'minot komponenti o'rnatilgan bo'lsa, Better Text to MP3 rus tilidagi matnlarni ham o'qiy oladi. Dastur matnli hujjat fayllarini ovozli fayllarga aylantirish imkoniyatiga ega bo'lganligi sababli, uning yordamida matnli hujjatlar kutubxonasini tinglash uchun ovozli fayllar to'plamiga aylantirishingiz mumkin. Ushbu fayllarni nafaqat kompyuterda, balki oddiy ko'chma MP3 pleerda ham tinglash mumkin (masalan, ishlash yo'lida). MP3-ga yaxshiroq matn, shuningdek o'zgartirilgan MP3 faylini elektron pochta orqali yuborishi mumkin.Dastur nogironlar uchun mo'ljallangan klaviatura interfeysi bilan jihozlangan. Bunday interfeys qo'shimcha so'rov bo'yicha dasturning ro'yxatdan o'tgan versiyasida mavjud.
Do'stlaringiz bilan baham: |