406
Нутқга ишлов бериш сигналларни қайта ишлашнинг энг қизиқарли
йўналишларидан бири ҳисобланади[1]. Нутқга ишлов бериш нутқ сигналла-
рини ва уларга ишлов бериш усулларини ўрганади. Нутқга
ишлов бериш
иловалари сифатида матн бўйича нутқни синтез қилиш, нутқни таниб олиш,
суҳандонни таниб олиш ва тасдиқлаш, нутқ сифатини ошириш, нутқни
сегментациялаш, тилни идентификациялаш, муносабат ва ҳиссиётларни
таниб олиш, аудио-визуал сигналларга ишлов бериш ва сўзлашувчи
диалог
тизимларини келтириш мумкин.
Нутқни таниб олиш нутқга ишлов беришнинг асосий йўналишларидан
бири бўлиб, нутқни автоматик таниб олиш (Automatic Speech Recognition –
ASR) деб ҳам номланади. Бу компьютер дастури сифатида амалга
оширилган бирор алгоритм ёрдамида нутқ сигналини сўзлар кетма-кетлигига
(яъни айтилган сўзларни матнга) ўтказиш жараёни ҳисобланади [2].
ASR тизимининг асосий мақсади берилган
O
акустик
киришдан L
тилидаги барча тўғри кетма-кетликлар орасида энг катта эҳтимоллик билан
дискрет белгилар кетма-кетлигини жумла кўринишига ўтказиш ҳисобланади
[3]. Бунда кириш қуйидаги дискрет кузатувлар тўплами сифатида қаралади:
1
2
3
,
,
,...,
t
O
o o o
o
(1)
Таниб олинадиган белгилар кетма-кетлиги эса қуйидагича белгиланади:
1
2
3
,
,
,...,
n
W
w w w
w
(2)
ASR тизимининг асосий мақсади қуйидагича ифодаланиши мумкин:
ˆ
arg max
|
,
W
P W O
W
L
(3)
Умуман олганда нутқни матнга ўтказиш
W
берилган кетма-кетлик ва
О
акустик кириш кетма-кетлиги учун
|
P W O
эҳтимоллик аниқлаш орқали
амалга оширилади. Байес теоремасидан фойдаланиб ушбу эҳтимоллик
ифодасини қуйидаги кўринишда олиш мумкин:
|
|
P O W P W
P W O
P O
(4)
(4) - ифоданинг ўнг томонидаги миқдорларни ҳисоблаш
|
P W O
ни
ҳисоблашга қараганда осонроқ бўлиб, у
P W
кетма-кетликнинг ўзи учун
априор эҳтимоллик сифатида аниқланади. Бунда у
W
кетма-кетликнинг
пайдо бўлиши ҳақидаги априор билимлардан фойдаланган ҳолда ҳисобла-
нади.
P O
ҳар бир номзод
жумла учун бир хил деб олиб, (4) -ифодани
қуйидаги кўринишга келтириш мумкин.
|
ˆ
arg max
arg max
|
,
P O W P W
W
P O W P W
W
L
P O
Одатда, берилган
W
кетма-кетликни инобатга олган ҳолда
О
акустик
кириш эҳтимоли бўлган
|
P O W
эҳтимоллик кузатув эҳтимоли сифатида
аниқланади ва акустик баҳо деб аталади. Бошқача қилиб айтганда бу нутқни
таниб олиш тизимининг акустик модели дейилади. Ҳозирги кунда акустик
моделни қуришнинг яширин марков модели (НММ-Hidden Markov model) ва
Гаусс аралашма модели (GMM-Gaussin mixture model) ҳамда нейрон тармоқ
407
ва НММ гибридига асосланган ёндашувлари ишлаб чиқилган. Сўнгги йил-
ларда чуқур нейрон тармоқлари асосида акустик моделни қуриш оммалашиб
бормоқда ва ушбу ёндашув юқори аниқликдаги натижаларни таъминламоқда.
P W
эҳтимоллик тил модели бўлиб, таниб олиш аниқлигини янада ошириш-
га хизмат қилади. Уни қуриш табиий тилдаги сўзларнинг ўзаро кетма-кет-
ликда кузатилиш эҳтимолликлари асосида амалга оширилади ва унда ўқув
танланмаси сифатида улкан ҳажмли матнли
маълумотлардан фойдаланиш
талаб этилади.
Фойдаланилган адабиётлар
1.X. Huang and L. Deng, An overview of modern speech recognition, in handbook of natural
language processing, second edition, chapter 15, chapman & hall/crc,(2010), pp.339-366.
2.X. Huang, A. Acero and H.-W. Hon, ― Spoken language processing: a guide to theory,
algorithm, and system development, prentice hall, (2011).
3.D. Jurafsky and J. H. Martin, ― Speech and language processing - an introduction to natural
language processing, computational linguistics, and speech recognition‖, prentice hall, (2013).
Do'stlaringiz bilan baham: