h
∈
ℝ
2
и единственной видимой переменной
v
. Предположим, что
p
(
h
) =
𝒩
(
h
; 0,
I
) и
p
(
v
|
h
) =
𝒩
(
v
;
w
⏉
h
; 1). Мы могли бы упростить эту модель, ис-
ключив
h
посредством интегрирования; в результате получится просто нормальное
распределение
v
. Сама по себе модель не интересна; мы построили ее только ради
демонстрации того, как вариационное исчисление применяется к вероятностному
моделированию.
Истинное апостериорное распределение с точностью до нормировочной постоян-
ной имеет вид
p
(
h
|
v
),
(19.57)
∝
p
(
h
,
v
),
(19.58)
=
p
(
h
1
)
p
(
h
2
)
p
(
v
|
h
),
(19.59)
(19.60)
Вариационный вывод и обучение
545
(19.60)
Из-за присутствия членов с произведением
h
1
и
h
2
истинное апостериорное рас-
пределение не факторизуется по
h
1
и
h
2
.
Применяя формулу (19.56), находим, что
q
~(
h
i
|
v
),
(19.62)
= exp(
𝔼
h
2
~
q
(h
2
|
v
)
log
p
~(
v
,
h
)),
(19.63)
(19.64)
(19.65)
Отсюда видно, что нам нужно получить из
q
(
h
2
|
v
), по существу, только два значе-
ния:
𝔼
h
2
~
q
(h|
v
)
[
h
2
] и
𝔼
h
2
~
q
(h|
v
)
[
h
2
2
]. Если обозначить их
⟨
h
2
⟩
и
⟨
h
2
2
⟩
, то получим
(19.66)
(19.67)
Отсюда следует, что
q
~ имеет функциональную форму гауссианы. Следовательно,
можно заключить, что
q
(
h
|
v
) =
𝒩
(
h
;
μ
,
β
–1
), где вектор
μ
и диагональная матрица
β
–
вариационные параметры, которые можно оптимизировать любым способом. Важно
помнить, что мы нигде не предполагали, что
q
будет нормальным распределением,
это получилось автоматически в результате применения вариационного исчисления
для максимизации
q
относительно
ℒ
. Применив тот же подход к другой модели, мы
получили бы другую функциональную форму
q
.
Конечно, это всего лишь простой пример, сконструированный специально для де-
монстрации. Примеры реального применения вариационного обучения с непрерывны-
ми переменными в контексте глубокого обучения см. в работе Goodfellow et al. (2013d).
19.4.4. Взаимодействия между обучением и выводом
Использование приближенного вывода в составе алгоритма обучения влияет на про-
цесс обучения, а это, в свою очередь, сказывается на верности алгоритма вывода.
Точнее говоря, алгоритм обучения стремится адаптировать модель таким образом,
чтобы предположения, лежащие в основе алгоритма приближенного вывода, больше
походили на правду. При обучении параметров метод вариационного обучения уве-
личивает математическое ожидание
𝔼
h
∼
q
log
p
(
v
,
h
).
(19.68)
При данном
v
это приводит к увеличению
p
(
h
|
v
) для значений
h
с высокой вероят-
ностью в распределении
q
(
h
|
v
) и к уменьшению
p
(
h
|
v
) для
h
с низкой вероятностью.
При таком поведении наши предположения, положенные в основу аппроксимации,
становятся сбывающимися пророчествами. Если мы обучим модель с унимодальным
приближенным апостериорным распределением, то получим модель, для которой ис-
546
Приближенный вывод
тинное апостериорное распределение гораздо ближе к унимодальному, чем было бы
при обучении модели с помощью точного вывода.
Таким образом, вычислить истинный вред, причиняемый модели вариационной
аппроксимацией, очень трудно. Существует несколько методов оценивания log
p
(
v
).
Зачастую мы оцениваем log
p
(
Do'stlaringiz bilan baham: |