532
Приближенный вывод
ℒ
(
v
,
θ
,
q
) = log
p
(
v
;
θ
) –
D
KL
(
q
(
h
|
v
)||
p
(
h
|
v
;
θ
)),
(19.2)
(19.3)
(19.4)
= log
p
(
v
;
θ
) –
𝔼
h
∼
q
[log
q
(
h
|
v
) – log
p
(
h
,
v
;
θ
) + log
p
(
v
;
θ
)]
(19.5)
= –
𝔼
h
∼
q
[log
q
(
h
|
v
) – log
p
(
h
,
v
;
θ
)].
(19.6)
В результате приходим к каноническому определению нижней границы свиде-
тельств:
ℒ
(
v
,
θ
,
q
) =
𝔼
h
∼
q
[log
p
(
h
,
v
)] +
H
(
q
).
(19.7)
При подходящем выборе
q
функцию
ℒ
можно вычислить. При любом выборе
q
ℒ
дает нижнюю границу правдоподобия. Чем лучше
q
(
h
|
v
) аппроксимирует
p
(
h
|
v
),
тем граница
ℒ
точнее, т. е. ближе к log
p
(
v
). Когда
q
(
h
|
v
) =
p
(
h
|
v
), аппроксимация
идеальна и
ℒ
(
v
,
θ
,
q
) = log
p
(
h
,
θ
).
Мы можем рассматривать вывод как процедуру нахождения
q
, доставляющего
максимум
ℒ
. Точный вывод максимизирует
ℒ
идеально, т. к. поиск производится во
всем семействе функций
q
, включающем
p
(
h
|
v
). В этой главе мы продемонстрируем
различные виды приближенного вывода с использованием приближенной оптимиза-
ции для нахождения
q
. Мы можем сделать процедуру оптимизации менее дорогой, но
приближенной, ограничив семейство распределений
q
, в котором разрешено произ-
водить поиск, или применяя неточную процедуру оптимизации, которая, возможно,
не находит истинного максимума функции
ℒ
, а просто значительно увеличивает ее.
При любом выборе
q
функция
ℒ
остается нижней границей. Граница может быть
более или менее точной, более или менее дешевой для вычисления в зависимости
от того, какой выбрать подход к задаче оптимизации. Можно получить плохую ап-
проксимацию
q
, но уменьшить вычислительную стоимость, воспользовавшись либо
неточной процедурой оптимизации, либо точной процедурой, но по ограниченному
семейству распределений
q
.
19.2. EM-алгоритм
Первый основанный на максимизации нижней границы
ℒ
алгоритм, который мы рас-
смотрим, – это популярный EM-алгоритм (expectation maximization) обучения моде-
лей с латентными переменными. Здесь мы опишем его интерпретацию, предложен-
ную в работе Neal and Hinton (1999). В отличие от большинства других алгоритмов
в этой главе, EM – это подход не столько к приближенному выводу, сколько к обуче-
нию с приближенным апостериорным распределением.
EM-алгоритм состоит из двух чередующихся шагов, повторяемых до достижения
сходимости.
E-шаг
(вычисление математического ожидания). Обозначим
θ
(0)
значение па-
раметров в начале шага. Положим
q
(
h
(
i
)
|
v
) =
p
(
h
(
i
)
|
v
(
i
)
;
Do'stlaringiz bilan baham: