автоматического распознавания речи
386
Приложения
(АРР, англ. ASR) – создать функцию
f
*
ASR
, вычисляющую наиболее вероятную линг-
вистическую последовательность
y
по заданной акустической последовательности
X
:
(12.4)
где
P
*
– истинное условное распределение, связывающее входы
X
с выходами
y
.
Начиная с 1980-х годов и примерно до 2009–2012-го системы распознавания речи
строились в основном с помощью комбинации скрытых марковских моделей (СММ)
и моделей гауссовых смесей (МГС). МГС моделируют ассоциацию между акусти-
ческими признаками и фонемами (Bahl et al., 1987), а СММ – последовательность
фонем. В семействе моделей СММ-МГС акустические сигналы рассматриваются как
порожденные следующим процессом: сначала СММ генерирует последовательность
фонем и подфонемных состояний (начало, середина и конец каждой фонемы), затем
МГС преобразует каждый дискретный символ в короткий сегмент акустического сиг-
нала. Системы СММ-МГС еще недавно занимали доминирующее положение, но рас-
познавание речи стало одной из первых областей применений нейронных сетей, и во
многих системах АРР, созданных в конце 1980-х и в начале 1990-х годов, они исполь-
зовались (Bourlard and Wellekens, 1989; Waibel et al., 1989; Robinson and Fallside, 1991;
Bengio et al., 1991, 1992; Konig et al., 1996). В то время качество систем АРР на основе
нейронных сетей было приблизительно таким же, как систем СММ-МГС. Например,
в работе Robinson and Fallside (1991) была достигнута частота ошибок распознавания
фонем 26% на корпусе текстов TIMIT (Garofolo et al., 1993), содержащем 39 различи-
мых фонем, что было сравнимо с СММ-системами или даже лучше. С тех пор корпус
TIMIT стал эталоном для распознавания фонем и играет такую же роль, как набор
данных MNIST для распознавания объектов. Тем не менее из-за технических сложно-
стей построения программных систем для распознавания речи и тех усилий, которые
были вложены в создание таких систем на основе СММ-МГС, индустрия не увидела
убедительных аргументов в пользу перехода на нейронные сети. Поэтому до конца
2000-х проводимые в академических и промышленных кругах исследования по при-
менению нейронных сетей к распознаванию речи были в основном сосредоточены на
обучении дополнительных признаков для систем СММ-МГС.
Позже, когда модели стали
гораздо больше и глубже
, а размер наборов данных резко
увеличился, верность распознавания удалось значительно повысить, используя ней-
ронные сети вместо МГС для ассоциированния акустических признаков с фонемами
(или подфонемными состояниями). Начиная с 2009 года ученые применили к рас-
познаванию речи вариант глубокого обучения на базе обучения без учителя. В основе
этого подхода лежало применение неориентированных вероятностных моделей, на-
зываемых ограниченными машинами Больцмана (ОМБ, англ. RBM), к моделирова-
нию входных данных. ОМБ описаны в третьей части книги. Для распознавания речи
использовали предобучение без учителя для построения глубокой сети прямого рас-
пространения, слои которой инициализировались посредством обучения ОМБ. Эти
сети принимали представление акустического спектра во входном окне фиксирован-
ного размера (вокруг центрального кадра) и предсказывали условные вероятности
состояний СММ для этого центрального кадра. Обучение глубоких сетей позволило
значительно повысить частоту распознавания на корпусе TIMIT (Mohamed et al.,
2009, 2012a), снизив частоту ошибок с 26 до 20.7%. В работе Mohamed et al. (2012b)
проанализированы причины успеха таких моделей. Распространение на конвейер
распознавания в телефоне привело к добавлению адаптивных признаков (Mohamed
Распознавание речи
387
et al., 2011), что позволило еще снизить частоту ошибок. Затем быстро последовали
работы по обобщению архитектуры с распознавания фонем (тема корпуса TIMIT)
на распознавание речи с большим словарем (Dahl et al., 2012), т. е. распознавание по-
следовательностей слов, взятых из большого словаря. В конечном итоге акцент в при-
менении глубоких сетей для распознавания речи сместился с предобучения и машин
Больцмана на такие темы, как блоки линейной ректификации и прореживание (Zeiler
et al., 2013; Dahl et al., 2013). К тому времени большинство известных коллективов
в промышленности приступило к исследованию глубокого обучения совместно с уче-
ными из академического сообщества. В работе Hinton et al. (2012a) описаны проры-
вы, которых удалось достичь в результате такого сотрудничества, сейчас они внедре-
ны в смартфоны и другие изделия.
Впоследствии, по мере увеличения размеченных наборов данных и включения не-
которых методов инициализации, обучения и настройки архитектуры глубоких се-
тей, эти группы пришли к выводу, что этап предобучения без учителя либо излишний,
либо не дает существенного улучшения.
Качественный прорыв в терминах частоты ошибок распознавания слов был бес-
прецедентным (около 30%), и за ним последовал длительный период, примерно
10 лет, в течение которого применение традиционной технологии СММ-МГС не при-
водило к существенному снижению частоты ошибок, несмотря на постоянно увели-
чивающийся размер обучающих наборов (см. рис. 2.4 в работе Deng and Yu [2014]).
В результате исследователи в области распознавания речи обратили взоры в сторону
глубокого обучения. Не прошло и двух лет, как большинство коммерческих продук-
тов для распознавания речи включало глубокие нейронные сети, что подхлестнуло
новые исследования по алгоритмам глубокого обучения и архитектурам АРР. Эти
исследования продолжаются и по сей день.
Одним из новшеств стало использование сверточных сетей (Sainath et al., 2013),
реплицирующих веса по времени и частоте, что привело к улучшению качества, по
сравнению с нейронными сетями с временной задержкой, в которых веса реплициро-
вались только по времени. В новых двумерных сверточных моделях входная спект-
рограмма рассматривалась не как один длинный вектор, а как изображение, одна ось
которого соответствует времени, а другая – частоте спектральных составляющих.
Еще одно важное направление, работы в котором по-прежнему ведутся, – переход
к сквозным системам распознавания речи на базе глубокого обучения, из которых
вообще устранены СММ. Первым значительным прорывом в этом направлении ста-
ла работа Graves et al. (2013), в которой обучена глубокая рекуррентная нейронная
сеть LSTM (см. раздел 10.10), использующая вывод на базе максимума апостериор-
ной вероятности поверх совмещения кадров с фонемами, как в работе LeCun et al.
(1998b) и в системе CTC (Graves et al., 2006; Graves, 2012). В глубокой РНС (Graves et
al., 2013) имеются переменные состояния из нескольких слоев на каждом временном
шаге, что придает развернутому графу два вида глубины: обычную, обусловленную
наличием нескольких слоев, и вследствие развертки во времени. В этой работе час-
тоту ошибок распознавания фонем на корпусе TIMIT удалось снизить до рекордных
17.7%. О вариантах глубоких РНС, применяемых в других ситуациях, см. работы
Pascanu et al. (2014a) и Chung et al. (2014).
Еще один недавний шаг в сторону сквозного глубокого обучения систем АРР – на-
учить систему «совмещать» акустическую информацию с фонетической (Chorowski
et al., 2014; Lu et al., 2015).
Do'stlaringiz bilan baham: |