168
Глубокие сети прямого распространения
средних распределения с единственной модой. Мы
хотим обновлять среднее
только для компоненты, которая действительно породила наблюдение. На прак-
тике мы не знаем, какая компонента какое наблюдение породила. В выражении
отрицательного логарифмического правдоподобия естественно взвешены вкла-
ды каждого примера в функцию потерь каждой компоненты, в роли веса высту-
пает
вероятность того, что данная компонента породила данный пример.
3. Ковариации
Σ
(
i
)
(
x
): определяют ковариационную матрицу каждой компоненты
i
. Как и при обучении одной гауссовой компоненты, мы обычно берем диагональ-
ную матрицу, чтобы избежать вычисления определителей. Как и при обучении
средних смеси, метод максимального правдоподобия
осложняется необходи-
мостью приписать часть ответственности за каждую точку компонентам смеси.
Алгоритм градиентного спуска автоматически будет следовать за правильным
процессом, если ему предоставить корректную спецификацию отрицательного
логарифмического правдоподобия для модели смеси.
Сообщалось, что градиентная оптимизация условных гауссовых смесей (на выходе
нейронных сетей) может оказаться ненадежной, отчасти из-за операций деления (на
дисперсию), которые могут быть численно неустойчивыми (если какая-то дисперсия
получается слишком малой для конкретного примера, что приводит к очень большим
градиентам). Одно из решений –
обрезать градиенты
(см. раздел 10.11.1), другое –
эвристически масштабировать градиенты (Murray and Larochelle, 2014).
Гауссовы смеси на выходе особенно эффективны в
порождающих моделях речи
(Schuster, 1999) и перемещения физических объектов (Graves, 2013). Стратегия сме-
совой плотности позволяет сети представить многомодальный
выход и управлять
дисперсией выхода, что очень важно для получения высококачественного результата
в тех предметных областях, где на выходе получаются вещественные числа. Пример
сети со смесовой плотностью показан на рис. 6.4.
x
y
Рис. 6.4
Примеры получены от нейронной
сети с выходным слоем
в виде смеси распределений. Вход
x
выбирается из равномерного распре-
деления, а выход y – из
p
model
(
y
|
x
)
. Нейронная сеть способна обучить нели-
нейные отображения входа на параметры выходного распределения. В со-
став этих параметров входят вероятности, управляющие тем, какая из трех
компонент смеси порождает выход, а также параметры отдельных компо-
нент. Каждая компонента смеси – нормальное распределение с предска-
занными средним и дисперсией. Все эти аспекты выходного распределе-
ния могут
изменяться в зависимости от
x
,
причем нелинейно