128
Основы машинного обучения
Определим
Λ
m
= (
X
⏉
X
+
Λ
0
–1
)
–1
и
μ
m
=
Λ
m
(
X
⏉
y
+
Λ
0
–1
μ
0
). При так определенных
новых переменных апостериорное распределение можно записать в виде нормаль-
ного:
p
(
w
|
X
,
y
)
∝
exp(–
1
/
2
(
w
–
μ
m
)
⏉
Λ
m
–1
(
w
–
μ
m
) +
1
/
2
μ
m
⏉
Λ
m
–1
μ
m
),
(5.77)
∝
exp(–
1
/
2
(
w
–
μ
m
)
⏉
Λ
m
–1
(
w
–
μ
m
)).
(5.78)
Все члены, не включающие вектор параметров
w
, опущены; они подразумеваются
в силу того факта, что распределение должно быть нормировано, так чтобы интеграл
оказался равен 1. Как нормируется многомерное нормальное распределение, показа-
но в формуле (3.23).
Изучение этого апостериорного распределения позволяет составить интуитивное
представление о поведении байесовского вывода. В большинстве случаев мы задаем
μ
0
равным
0
. Если положить
Λ
0
= (1/
α
)
I
, то
μ
m
дает ту же оценку
w
, что и частотная
линейная регрессия со снижением веса
α
w
⏉
w
. Одно отличие заключается в том, что
байесовская оценка не определена, если
α
равно 0 – запрещается начинать процесс
байесовского обучения с бесконечно широким
априорным распределением
w
. Но
есть и более важное отличие – байесовская оценка дает ковариационную матрицу,
показывающую, насколько вероятны все значения
w
, а не только оценку
μ
m
.
5.6.1. Оценка апостериорного максимума (MAP)
Хотя принципиальный подход состоит в том, чтобы делать предсказания, используя
полное байесовское апостериорное
распределение параметра
θ
, часто все же жела-
тельно иметь одну точечную оценку. Одна их причин – тот факт, что операции, вклю-
чающие байесовское апостериорное распределение для большинства интересных
моделей, как правило, вычислительно неразрешимы, а точечная оценка предлагает
разрешимую аппроксимацию. Вместо того чтобы просто возвращать оценку макси-
мального правдоподобия, мы можем все-таки воспользоваться некоторыми преиму-
ществами
байесовского подхода, разрешив априорному распределению влиять на
выбор точечной оценки. Один из рациональных способов сделать это – взять оценку
апостериорного максимума (MAP). Это точка, в которой достигается максимальная
апостериорная вероятность (или максимальная плотность вероятности в более рас-
пространенном случае непрерывной величины
θ
).
θ
MAP
=
p
(
θ
|
x
) =
log
p
(
x
|
θ
) + log
p
(
θ
).
(5.79)
В правой части мы видим знакомый член log
p
(
x
|
θ
) – стандартное логарифмиче-
ское правдоподобие, а также слагаемое log
p
(
θ
), соответствующее априорному рас-
пределению.
В качестве примера рассмотрим модель линейной регрессии с нормальным апри-
орным
распределением весов
w
. Если это распределение
𝒩
(
w
;
0
, (1/
λ
)
I
2
), то член
log
p
(
θ
) в формуле (5.79) пропорционален знакомому штрафу в виде снижения ве-
сов
λ
w
⏉
w
плюс член, не зависящий от
w
и не влияющий на процесс обучения. Таким
образом, байесовский вывод MAP с нормальным априорным распределением весов
соответствует снижению весов.
Байесовский вывод MAP, как и полный байесовский вывод, обладает тем преиму-
ществом, что задействует информацию, содержащуюся в априорном распределении,
но отсутствующую в обучающих данных. Эта дополнительная информация помогает
Алгоритмы обучения с учителем
129
уменьшить дисперсию точечной оценки MAP (по сравнению с оценкой максималь-
ного правдоподобия). Однако за это приходится расплачиваться увеличенным сме-
щением.
Многие регуляризированные
стратегии оценивания, в частности оценку макси-
мального правдоподобия со снижением весом, можно интерпретировать как MAP-
аппроксимацию байесовского вывода. Эта точка зрения применима, когда процедура
регуляризации сводится к прибавлению дополнительного члена к целевой функции,
который соответствует log
p
(
θ
). Не все регуляризующие штрафы совместимы с байе-
совским выводом. Например, возможны члены-регуляризаторы, не являющиеся ло-
гарифмом распределения вероятности. Бывает и так, что член-регуляризатор зависит
от данных, что, конечно, недопустимо для априорного распределения.
Байесовский вывод MAP предлагает простой способ проектирования сложных,
но все же допускающих интерпретацию регуляризующих членов. Например, более
хитроумный штрафной член можно получить, взяв в качестве априорного смесь нор-
мальных распределений, а не единственное такое распределение (Nowlan and Hinton,
1992).
Do'stlaringiz bilan baham: