Я. Гудфеллоу, И. Бенджио, А. Курвилль


автоматического распознавания речи



Download 14,23 Mb.
Pdf ko'rish
bet475/779
Sana14.06.2022
Hajmi14,23 Mb.
#671946
TuriКнига
1   ...   471   472   473   474   475   476   477   478   ...   779
Bog'liq
Гудфеллоу Я , Бенджио И , Курвилль А Глубокое обучение

автоматического распознавания речи


386 

 
Приложения
(АРР, англ. ASR) – создать функцию 
f
*
ASR
, вычисляющую наиболее вероятную линг-
вистическую последовательность 
y
по заданной акустической последовательности 
X
:
(12.4)
где 
P
*
– истинное условное распределение, связывающее входы 
X
с выходами 
y
.
Начиная с 1980-х годов и примерно до 2009–2012-го системы распознавания речи 
строились в основном с помощью комбинации скрытых марковских моделей (СММ) 
и моделей гауссовых смесей (МГС). МГС моделируют ассоциацию между акусти-
ческими признаками и фонемами (Bahl et al., 1987), а СММ – последовательность 
фонем. В семействе моделей СММ-МГС акустические сигналы рассматриваются как 
порожденные следующим процессом: сначала СММ генерирует последовательность 
фонем и подфонемных состояний (начало, середина и конец каждой фонемы), затем 
МГС преобразует каждый дискретный символ в короткий сегмент акустического сиг-
нала. Системы СММ-МГС еще недавно занимали доминирующее положение, но рас-
познавание речи стало одной из первых областей применений нейронных сетей, и во 
многих системах АРР, созданных в конце 1980-х и в начале 1990-х годов, они исполь-
зовались (Bourlard and Wellekens, 1989; Waibel et al., 1989; Robinson and Fallside, 1991; 
Bengio et al., 1991, 1992; Konig et al., 1996). В то время качество систем АРР на основе 
нейронных сетей было приблизительно таким же, как систем СММ-МГС. Например, 
в работе Robinson and Fallside (1991) была достигнута частота ошибок распознавания 
фонем 26% на корпусе текстов TIMIT (Garofolo et al., 1993), содержащем 39 различи-
мых фонем, что было сравнимо с СММ-системами или даже лучше. С тех пор корпус 
TIMIT стал эталоном для распознавания фонем и играет такую же роль, как набор 
данных MNIST для распознавания объектов. Тем не менее из-за технических сложно-
стей построения программных систем для распознавания речи и тех усилий, которые 
были вложены в создание таких систем на основе СММ-МГС, индустрия не увидела 
убедительных аргументов в пользу перехода на нейронные сети. Поэтому до конца 
2000-х проводимые в академических и промышленных кругах исследования по при-
менению нейронных сетей к распознаванию речи были в основном сосредоточены на 
обучении дополнительных признаков для систем СММ-МГС.
Позже, когда модели стали 
гораздо больше и глубже
, а размер наборов данных резко 
увеличился, верность распознавания удалось значительно повысить, используя ней-
ронные сети вместо МГС для ассоциированния акустических признаков с фонемами 
(или подфонемными состояниями). Начиная с 2009 года ученые применили к рас-
познаванию речи вариант глубокого обучения на базе обучения без учителя. В основе 
этого подхода лежало применение неориентированных вероятностных моделей, на-
зываемых ограниченными машинами Больцмана (ОМБ, англ. RBM), к моделирова-
нию входных данных. ОМБ описаны в третьей части книги. Для распознавания речи 
использовали предобучение без учителя для построения глубокой сети прямого рас-
пространения, слои которой инициализировались посредством обучения ОМБ. Эти 
сети принимали представление акустического спектра во входном окне фиксирован-
ного размера (вокруг центрального кадра) и предсказывали условные вероятности 
состояний СММ для этого центрального кадра. Обучение глубоких сетей позволило 
значительно повысить частоту распознавания на корпусе TIMIT (Mohamed et al., 
2009, 2012a), снизив частоту ошибок с 26 до 20.7%. В работе Mohamed et al. (2012b) 
проанализированы причины успеха таких моделей. Распространение на конвейер 
распознавания в телефоне привело к добавлению адаптивных признаков (Mohamed 


Распознавание речи 

387
et al., 2011), что позволило еще снизить частоту ошибок. Затем быстро последовали 
работы по обобщению архитектуры с распознавания фонем (тема корпуса TIMIT) 
на распознавание речи с большим словарем (Dahl et al., 2012), т. е. распознавание по-
следовательностей слов, взятых из большого словаря. В конечном итоге акцент в при-
менении глубоких сетей для распознавания речи сместился с предобучения и машин 
Больцмана на такие темы, как блоки линейной ректификации и прореживание (Zeiler 
et al., 2013; Dahl et al., 2013). К тому времени большинство известных коллективов 
в промышленности приступило к исследованию глубокого обучения совместно с уче-
ными из академического сообщества. В работе Hinton et al. (2012a) описаны проры-
вы, которых удалось достичь в результате такого сотрудничества, сейчас они внедре-
ны в смартфоны и другие изделия.
Впоследствии, по мере увеличения размеченных наборов данных и включения не-
которых методов инициализации, обучения и настройки архитектуры глубоких се-
тей, эти группы пришли к выводу, что этап предобучения без учителя либо излишний, 
либо не дает существенного улучшения.
Качественный прорыв в терминах частоты ошибок распознавания слов был бес-
прецедентным (около 30%), и за ним последовал длительный период, примерно 
10 лет, в течение которого применение традиционной технологии СММ-МГС не при-
водило к существенному снижению частоты ошибок, несмотря на постоянно увели-
чивающийся размер обучающих наборов (см. рис. 2.4 в работе Deng and Yu [2014]). 
В результате исследователи в области распознавания речи обратили взоры в сторону 
глубокого обучения. Не прошло и двух лет, как большинство коммерческих продук-
тов для распознавания речи включало глубокие нейронные сети, что подхлестнуло 
новые исследования по алгоритмам глубокого обучения и архитектурам АРР. Эти 
исследования продолжаются и по сей день.
Одним из новшеств стало использование сверточных сетей (Sainath et al., 2013), 
реплицирующих веса по времени и частоте, что привело к улучшению качества, по 
сравнению с нейронными сетями с временной задержкой, в которых веса реплициро-
вались только по времени. В новых двумерных сверточных моделях входная спект-
рограмма рассматривалась не как один длинный вектор, а как изображение, одна ось 
которого соответствует времени, а другая – частоте спектральных составляющих.
Еще одно важное направление, работы в котором по-прежнему ведутся, – переход 
к сквозным системам распознавания речи на базе глубокого обучения, из которых 
вообще устранены СММ. Первым значительным прорывом в этом направлении ста-
ла работа Graves et al. (2013), в которой обучена глубокая рекуррентная нейронная 
сеть LSTM (см. раздел 10.10), использующая вывод на базе максимума апостериор-
ной вероятности поверх совмещения кадров с фонемами, как в работе LeCun et al. 
(1998b) и в системе CTC (Graves et al., 2006; Graves, 2012). В глубокой РНС (Graves et 
al., 2013) имеются переменные состояния из нескольких слоев на каждом временном 
шаге, что придает развернутому графу два вида глубины: обычную, обусловленную 
наличием нескольких слоев, и вследствие развертки во времени. В этой работе час-
тоту ошибок распознавания фонем на корпусе TIMIT удалось снизить до рекордных 
17.7%. О вариантах глубоких РНС, применяемых в других ситуациях, см. работы 
Pascanu et al. (2014a) и Chung et al. (2014).
Еще один недавний шаг в сторону сквозного глубокого обучения систем АРР – на-
учить систему «совмещать» акустическую информацию с фонетической (Chorowski 
et al., 2014; Lu et al., 2015).



Download 14,23 Mb.

Do'stlaringiz bilan baham:
1   ...   471   472   473   474   475   476   477   478   ...   779




Ma'lumotlar bazasi mualliflik huquqi bilan himoyalangan ©hozir.org 2024
ma'muriyatiga murojaat qiling

kiriting | ro'yxatdan o'tish
    Bosh sahifa
юртда тантана
Боғда битган
Бугун юртда
Эшитганлар жилманглар
Эшитмадим деманглар
битган бодомлар
Yangiariq tumani
qitish marakazi
Raqamli texnologiyalar
ilishida muhokamadan
tasdiqqa tavsiya
tavsiya etilgan
iqtisodiyot kafedrasi
steiermarkischen landesregierung
asarlaringizni yuboring
o'zingizning asarlaringizni
Iltimos faqat
faqat o'zingizning
steierm rkischen
landesregierung fachabteilung
rkischen landesregierung
hamshira loyihasi
loyihasi mavsum
faolyatining oqibatlari
asosiy adabiyotlar
fakulteti ahborot
ahborot havfsizligi
havfsizligi kafedrasi
fanidan bo’yicha
fakulteti iqtisodiyot
boshqaruv fakulteti
chiqarishda boshqaruv
ishlab chiqarishda
iqtisodiyot fakultet
multiservis tarmoqlari
fanidan asosiy
Uzbek fanidan
mavzulari potok
asosidagi multiservis
'aliyyil a'ziym
billahil 'aliyyil
illaa billahil
quvvata illaa
falah' deganida
Kompyuter savodxonligi
bo’yicha mustaqil
'alal falah'
Hayya 'alal
'alas soloh
Hayya 'alas
mavsum boyicha


yuklab olish