AВТОМAТИК НУТҚНИ ТAНИШ ТИЗИМЛAРИНИ ИШЛAБ
ЧИҚИШДA ТИЛ МОДЕЛИНИНГ AХAМИЯТI
И.Ш.Хужаяров (катта ўқитувчи, Муҳаммад ал-Хоразмий номидаги ТАТУ)
М.М.Очилов (ассистент,Муҳаммад ал-Хоразмий номидаги ТАТУ)
Нутқ ижтимоий ҳодиса ҳисобланиб, инсонлар орасида энг асосий алоқа
воситаси бўлиб ҳисобланди. Сўнги вақтларда инсон-компьютер орасида
бўладиган муносабатларни табиий нутқ ёрдамида амалага оширига бўлган
уринишлар ортиб бормоқда. Энг оддий кўринишда бу муносабатларни
компьютерни овозли бошқариш ва клавиатурасиз овоз ёрдамида матн
428
киритиш орқали кўришимиз мумкин. Бундан ташқари нутқни автоматик
таниш тизимлари ҳаётнинг турли соҳаларида кенг қўлланилади. Буларга
қуйидагиларни келтиришимиз мумкин: телефон тармоқлари орқали бўлади-
ган овозли сўровларга автоматик жавоб бериш, овозли кўринишдаги инсон-
машинаси интерфейси, овозли диктант, нутқ транскрипцияси, ногиронлар
(кўр одамлар) буйруқларини овозли кўринишда қабул қилиш, тил ўрганиш
жараёнида, стенография ва бошқа соҳалар.
Юқорида келтирилган соҳа
масалаларини ечиш учун нутқни автоматик таниб олишнинг бир нечта
усуллари ишлаб чиқилган. Бу усулларга мисол қилиб, динамик дастурлашга
асосланган DTW(Dynamic Time Warping), марков моделига асосланган
HMM(Hidden Markov Model), сунъий интеллектга асосланган ANN(Artificial
Neural Network), чуқур ўқитилишга асосланган DNN(Deep Neural Network)
алгоритмларини келтиришимиз мумкин [1,2].
Бугунги кунга келиб ҳаётнинг барча соҳасида чуқур ўқитишга асослан-
ган нейрон тармоқлари қўлланиб келинмоқда. Ушбу соҳалардан бири бу
нутқни автоматик танишдир. Чуқур ўқитилишга асосланган нейрон тармоқ-
ларидан фойдаланадиган нутқни таниш тизимининг умумий кетма-кетлиги
қуйидаги 1-расмда келтирилган:
1-расм. Чуқур ўқитилишга асосланган нутқ таниш тизими
Юқоридаги расмда келтирилган “Aкустик модел” деб номланган
блокида чуқур ўқитилишга асосланган нейрон тармоғлари жойлашган бўлиб,
кирувчи нутқ сигналининг ҳар бир фреймини маълум бир белгига(алфавитда
мавжуд) мос келишини башоратлаб бериш билан шуғулланади. Мисол
сифатида кирувчи маълумот сифатида “salom dunyo” жумласи талаффуз
қилинган бўлса, нутқ давомийлигини 1сек, сигналнинг дискретлаш частота-
сини 16кHz ва фрейм ўлчамини 400 деб қарасак, 40 та белги кетма-кет
башорат қилинади.
Misol: sssaaalllooommnnnn__dddduuunnnnyyyyooooo
“Декодлаш” деб номланган блокда юқориги мисолда келтирилган
акустик моделдан чиқувчи белгилар кетма-кетлигини инсон тушунадиган
кўринишга келтиришга мўлжалланган. Бунда дастлаб декодлашнинг базис
алгоритмидан фойдаланилади. Яъни ёнма-ён келган бир хил белгиларни
биттаси қолдирилади.
Натижа: salomn dunyo
Юқоридаги мисолда
декодлашнинг
базис
алгоритми
амалга
оширилгандан кийинги натижа келтирилган. Эътибор берадиган бўлсак,
“salom” сўзи “salomn” деб башорат қилинди. “Salomn” сўзи ўзбек тили
сўзлари таркибида йўқ, аслида қайси сўз келиши кераклигини аниқлаш учун
тил модели керак бўлади. Қуйида тил моделидан фойдаланиб матни
башоратлаш алгоритми босқичлари келтирлиган:
429
2-расм. Текстни башоратлаш алгоритми
Қуйида юқориги 2-расмда келтирилган кетма-кетликнинг асосий
босқичларини мисоллар орқали кўриб ўтамиз.
L итерацияли цикл хосил қилиб i-чи индексдаги символни ўчириш
натижасида қуйидаги сўзлар(6та) ҳосил бўлади:
['alonm', 'slonm', 'saonm', 'salnm', 'salom', 'salon']
Сўздаги иккита ёнма-ён символлар ўрнини алмаштириш натижасида
қуйидаги сўзлар(5та) ҳосил бўлади:
['aslonm', 'slaonm', 'saolnm', 'salnom', 'salomn']
L+1 итерацияли цикл хосил қилиб i-чи индексдаги символ олдига
алфавитдаги барча ҳарфларни новбатма-новбат қўйиш натижасида қуйидаги
сўзлар(182та) ҳосил бўлади:
['asalonm', 'bsalonm’, ‘dsalonm’, …', ‘saloanm', 'salobnm’, 'salodnm’,…
'salonma', 'salonmb', ‘salonmd’ …]
L итерацияли цикл хосил қилиб i-чи индексдаги символни ўрнига
алфавитдаги барча ҳарфларни новбатма-новбат қўйиш натижасида қуйидаги
сўзлар(156та) ҳосил бўлади:
['aalonm', 'balonm', ‘dalonm’, … , saaonm', ‘sabonm’, ‘sadonm’,…
'salona', 'salonb', 'salond’,…]
Юқоридаги босқичлардан сўнг умумий 349 та сўз ҳосил бўлади. Лекин
буларнинг қайси бирлари ўзбек тили сўзлари луғатига мавжуд бўлса
шуларни ажратиб оламиз. Бизнинг мисолимизда луғатимизда “salom” ва
“salon” сўлари бор. Шу сўзларни ажратиб оламиз. Кийинги масала қайси
сўзни қолдириш масаласи бўлади. Бундай ҳолатда n-gram тил моделидан
фойдаланилади[3,4]. N-gram модели бу берилган матнда N та сўзнинг кетма-
кет келиши эҳтимолигини аниқлашга асосланган бўлиб, бизниг мисолда
“salom dunyo” жумласининг бирга келиши “salon dunyo” жумласига
қараганда эҳтимоли катта бўлганлиги сабабли “salom” сўзи танланади.
Хулоса қилиб шуни айтиш муминки нутқни автоматик таниш
тизимларида тил модели башорат қилинадиган матни аниқлилигини ва
ишончлилигини оширади.
Aдабиётлар
1.
Хужаяров И.Ш., Очилов М.М. Нейрон тармоқларига асосланган нутқ
сигналларини акустик моделлаштириш усуллари таҳлили // ТАТУ хабарлари. №2(54),
2020.-Б. 2-15. (05.00.00; №31).
430
2.
Musaev M., Khujayorov I., Ochilov M. The use of neural networks to improve the
recognition accuracy of explosive and unvoiced phonemes in Uzbek language. 2020 Information
Communication Technologies Conference (ICTC). China, 2020. -PP. 231-234.
3.
Jerome R Bellegarda. Statistical language model adaptation: review and perspectives.
Speech communication, 42(1):93–108, 2004.
4.
Daniel Jurafsky & James H. Martin. Speech and Language Processing: Chapter 3 - N-
gram Language Models. Draft of December 30, 2020.
Do'stlaringiz bilan baham: |