Часть II • Введение в TensorFlow.js
conv2d и maxPooling2d, используют в своей работе пространственные отношения
в двумерных пространствах. Оказывается, звуки
можно
представить в виде осо
бых изображений, так называемых
спектрограмм
(spectrogram). Спектрограммы
не только позволяют обрабатывать звуки с помощью сверточных нейронных сетей,
но и могут применяться вне сферы глубокого обучения.
Как демонстрирует рис. 4.12, спектрограмма — это двумерный массив чисел,
который можно представить в виде изображения в оттенках серого, примерно так,
как и изображения MNIST. Горизонтальное измерение — время, а вертикальное —
частота. Вертикальные полосы спектрограммы отражают
спектр
(spectrum) частот
в пределах короткого временного окна. Спектр — это разбиение звукового сигнала
на различные частотные компоненты, которые можно рассматривать как отдельные
«тона». Подобно тому как свет можно разбить с помощью призмы на множество
цветов, звук можно разбить на отдельные частоты с помощью математической опера
ции, именуемой
преобразованием Фурье
(Fourier transform). По сути, спектрограмма
описывает изменения частотного содержимого звукового сигнала за несколько по
следовательных, узких временных окон (обычно длиной порядка 20 миллисекунд).
На рис. 4.12 каждая из полос по временной оси (столбец изображения) пред
ставляет собой краткий промежуток (кадр) времени; а каждый срез по оси частоты
(строка изображения) соответствует конкретному узкому диапазону частот (тону).
Значения пикселов изображения соответствуют относительной мощности звукового
сигнала в данном диапазоне частот в конкретный момент времени. Спектрограммы
здесь изображены так, что более темному оттенку серого соответствует б
ó
льшая
мощность. Различные звуки речи обладают разными отличительными признаками.
Например, свистящие звуки, такие как z и s, характеризуются квазистационарным
состоянием мощности, сосредоточенной на частотах выше 2–3 кГц; гласные звуки,
например e и o, характеризуются горизонтальными полосами (всплесками мощно
сти) на нижнем конце спектра частот (< 3 кГц). Эти всплески мощности в акустике
называются
формантами
. У различных гласных разные частоты формант. Глубокая
сверточная сеть может использовать все эти отличительные признаки различных
звуков речи для распознавания слов.
Спектрограммы удобны в качестве представления звуковых сигналов по следу
ющим причинам. Вопервых, они экономят место: количество чисел с плавающей
точкой в спектрограмме обычно в несколько раз меньше, чем в исходной волновой
форме. Вовторых, в некотором смысле спектрограммы отражают работу слуха
в биологии. Анатомическая структура во внутреннем ухе — улитка — по суще
ству, выполняет биологическое «преобразование Фурье». Она раскладывает звуки
на отдельные частоты, улавливаемые различными наборами слуховых нейронов.
Втретьих, представление звуков речи в виде спектрограммы позволяет проще от
личать типы звуков речи друг от друга. Это хорошо видно из примеров спектрограмм
на рис. 4.12: у гласных и согласных совершенно разные отличительные признаки
на спектрограммах. Десятки лет назад, еще до того, как машинное обучение стало
широко применяться, специалисты по распознаванию речи пытались вручную
сформировать правила, которые бы позволяли обнаруживать на спектрограммах
различные гласные и согласные. Глубокое обучение дает возможность сэкономить
силы и нервы, необходимые для подобной «ручной работы».
Do'stlaringiz bilan baham: |