Ўзбекистон республикаси ахборот технологиялари ва коммуникацияларини ривожлантириш вазирлиги муҳаммад ал-хоразмий номидаги

НУТҚНИ АВТОМАТИК ТАНИБ ОЛИШ МАСАЛАСИ

Download 7,67 Mb.

Pdf ko'rish

bet	185/260
Sana	25.02.2022
Hajmi	7,67 Mb.
	#291106

1 ... 181 182 183 184 185 186 187 188 ... 260

Bog'liq
2-qism-toplam-4-5-mart

НУТҚНИ АВТОМАТИК ТАНИБ ОЛИШ МАСАЛАСИ
Н.С. Маматов (етакчи илмий ходими, ТАТУ ҳузуридаги АКТ ИИМ)
Ш.Ш. Абдуллаев (таянч докторант, ТАТУ ҳузуридаги АКТ ИИМ)
А.Н. Самижонов (талаба, Муҳаммад ал-Хоразмий номидаги ТАТУ)
Нутқ инсонлар мулоқотининг қулай табиий шакли бўлиб, уни таниб
олиш компьютер дастури ёрдамида сўзлар кетма-кетлигига ўтказишдан
иборат. Нутқни таниб олиш иловалари инсонларга бошқа дастурлар билан
осон ва самарали ишлаш учун нутқни яна бир киритиш режими сифатида
фойдаланишга имкон беради. Она тилидаги нутқни таниб олиш интерфейс-
лари компьютер саводхонлиги бўлмаган кишиларга компьютер клавиатура-
сидан фойдаланмай ушбу технологиядан кенг фойдаланиш имкониятини
беради. Кўп йиллар давомида нутқни таниб олишнинг турли жиҳатлари ва
унинг қўлланилиши бўйича жуда кўп тадқиқотлар олиб борилди. Бугунги
кунда инсон ва машина орасидаги алоқа учун нутқни автоматик таниб
олишдан муваффақиятли фойдаланадиган кўплаб маҳсулотлар ишлаб
чиқилган. Нутқни таниб олиш иловаларининг самарадорлиги реверберация
ва ҳатто паст даражадаги атроф-муҳит халақитлари мавжуд бўлганда ҳам
ёмонлашади. Қурилмалар характеристикалари, реверберацияси ва халақит-
ларга бардошлилик муаммоси ҳали ҳам ҳал қилинмаган, бу эса нутқни таниб
олиш соҳасидаги тадқиқотларни фаол олиб боришга сабаб бўлмоқда.

406
Нутқга ишлов бериш сигналларни қайта ишлашнинг энг қизиқарли
йўналишларидан бири ҳисобланади[1]. Нутқга ишлов бериш нутқ сигналла-
рини ва уларга ишлов бериш усулларини ўрганади. Нутқга ишлов бериш
иловалари сифатида матн бўйича нутқни синтез қилиш, нутқни таниб олиш,
суҳандонни таниб олиш ва тасдиқлаш, нутқ сифатини ошириш, нутқни
сегментациялаш, тилни идентификациялаш, муносабат ва ҳиссиётларни
таниб олиш, аудио-визуал сигналларга ишлов бериш ва сўзлашувчи диалог
тизимларини келтириш мумкин.
Нутқни таниб олиш нутқга ишлов беришнинг асосий йўналишларидан
бири бўлиб, нутқни автоматик таниб олиш (Automatic Speech Recognition –
ASR) деб ҳам номланади. Бу компьютер дастури сифатида амалга
оширилган бирор алгоритм ёрдамида нутқ сигналини сўзлар кетма-кетлигига
(яъни айтилган сўзларни матнга) ўтказиш жараёни ҳисобланади [2].
ASR тизимининг асосий мақсади берилган
O
акустик киришдан L
тилидаги барча тўғри кетма-кетликлар орасида энг катта эҳтимоллик билан
дискрет белгилар кетма-кетлигини жумла кўринишига ўтказиш ҳисобланади
[3]. Бунда кириш қуйидаги дискрет кузатувлар тўплами сифатида қаралади:
1
2
3
,
,
,...,
t
O
o o o
o

(1)
Таниб олинадиган белгилар кетма-кетлиги эса қуйидагича белгиланади:
1
2
3
,
,
,...,
n
W
w w w
w

(2)
ASR тизимининг асосий мақсади қуйидагича ифодаланиши мумкин:


ˆ
arg max
|
,
W
P W O
W
L


(3)
Умуман олганда нутқни матнга ўтказиш
W
берилган кетма-кетлик ва
О
акустик кириш кетма-кетлиги учун


|
P W O
эҳтимоллик аниқлаш орқали
амалга оширилади. Байес теоремасидан фойдаланиб ушбу эҳтимоллик
ифодасини қуйидаги кўринишда олиш мумкин:



  
 
|
|
P O W P W
P W O
P O

(4)
(4) - ифоданинг ўнг томонидаги миқдорларни ҳисоблаш


|
P W O
ни
ҳисоблашга қараганда осонроқ бўлиб, у
 
P W
кетма-кетликнинг ўзи учун
априор эҳтимоллик сифатида аниқланади. Бунда у
W
кетма-кетликнинг
пайдо бўлиши ҳақидаги априор билимлардан фойдаланган ҳолда ҳисобла-
нади.
 
P O
ҳар бир номзод жумла учун бир хил деб олиб, (4) -ифодани
қуйидаги кўринишга келтириш мумкин.

  
 

  
|
ˆ
arg max
arg max
|
,
P O W P W
W
P O W P W
W
L
P O



Одатда, берилган
W
кетма-кетликни инобатга олган ҳолда
О
акустик
кириш эҳтимоли бўлган


|
P O W
эҳтимоллик кузатув эҳтимоли сифатида
аниқланади ва акустик баҳо деб аталади. Бошқача қилиб айтганда бу нутқни
таниб олиш тизимининг акустик модели дейилади. Ҳозирги кунда акустик
моделни қуришнинг яширин марков модели (НММ-Hidden Markov model) ва
Гаусс аралашма модели (GMM-Gaussin mixture model) ҳамда нейрон тармоқ

407
ва НММ гибридига асосланган ёндашувлари ишлаб чиқилган. Сўнгги йил-
ларда чуқур нейрон тармоқлари асосида акустик моделни қуриш оммалашиб
бормоқда ва ушбу ёндашув юқори аниқликдаги натижаларни таъминламоқда.
 
P W
эҳтимоллик тил модели бўлиб, таниб олиш аниқлигини янада ошириш-
га хизмат қилади. Уни қуриш табиий тилдаги сўзларнинг ўзаро кетма-кет-
ликда кузатилиш эҳтимолликлари асосида амалга оширилади ва унда ўқув
танланмаси сифатида улкан ҳажмли матнли маълумотлардан фойдаланиш
талаб этилади.
Фойдаланилган адабиётлар
1.X. Huang and L. Deng, An overview of modern speech recognition, in handbook of natural
language processing, second edition, chapter 15, chapman & hall/crc,(2010), pp.339-366.
2.X. Huang, A. Acero and H.-W. Hon, ― Spoken language processing: a guide to theory,
algorithm, and system development, prentice hall, (2011).
3.D. Jurafsky and J. H. Martin, ― Speech and language processing - an introduction to natural
language processing, computational linguistics, and speech recognition‖, prentice hall, (2013).

Download 7,67 Mb.

Do'stlaringiz bilan baham:

1 ... 181 182 183 184 185 186 187 188 ... 260