Пример: байесовская линейная регрессия.
Рассмотрим байесовский подход
к обуче нию параметров линейной регрессии. Мы хотим обучить линейное отображе-
ние входного вектора
x
∈ ℝ
n
для предсказания скалярного значения
y
∈ ℝ
. Предсказа-
ние параметризуется вектором
w
∈ ℝ
n
:
y
�
=
w
⏉
x
.
(5.69)
Если дано множество
m
обучающих примеров (
X
(train)
,
y
(train)
), то предсказание
y
по
всему обучающему набору можно выразить в виде
y
�
(train)
=
X
(train)
w
.
(5.70)
Предполагая нормальное условное распределение
y
(train)
, имеем
p
(
y
(train)
|
X
(train)
,
w
) =
𝒩
(
y
(train)
;
X
(train)
w
,
I
),
(5.71)
∝
exp(–
1
/
2
(
y
(train)
–
X
(train)
w
)
⏉
(
y
(train)
–
X
(train)
w
)),
(5.72)
где используется стандартное для записи среднеквадратической ошибки предполо-
жение о том, что дисперсия
y
равна 1. В дальнейшем мы во избежание громоздкости
будем вместо (
X
(train)
,
y
(train)
) писать просто (
X
,
y
).
Для определения апостериорного распределения вектора параметров модели
w
нужно сначала задать априорное распределение. Оно должно отражать наши наивные
представления о ценности параметров. Иногда выразить априорные представления
в терминах параметров модели трудно или неестественно, но на практике мы обычно
предполагаем довольно широкое распределение, выражающее высокую степень не-
определенности
θ
. Для вещественных параметров часто в качестве априорного берут
нормальное распределение.
p
(
w
) =
𝒩
(
w
;
μ
0
,
Λ
0
)
∝
exp(–
1
/
2
(
w
–
μ
0
)
⏉
Λ
0
–1
(
w
–
μ
0
)),
(5.73)
где
μ
0
и
Λ
0
– средний вектор априорного распределения и ковариационная матрица
соответственно
1
.
При таком задании априорного распределения мы теперь можем перейти к опреде-
лению
апостериорного
распределения параметров модели:
p
(
w
|
X
,
y
)
∝
p
(
y
|
X
,
w
)
p
(
w
),
(5.74)
∝
exp(–
1
/
2
(
y
–
Xw
)
⏉
(
y
–
Xw
)) exp(–
1
/
2
(
w
–
μ
0
)
⏉
Λ
0
–1
(
w
–
μ
0
))
(5.75)
∝
exp(–
1
/
2
(–2
y
⏉
Xw
+
w
⏉
X
⏉
Xw
+
w
⏉
Λ
0
–1
w
– 2
μ
0
⏉
Λ
0
–1
w
)).
(5.76)
1
Если нет причин использовать конкретную структуру ковариационной матрицы, то обычно
берется диагональная
Λ
0
= diag(
λ
0
).
128
Основы машинного обучения
Определим
Λ
m
= (
X
⏉
X
+
Λ
0
–1
)
–1
и
μ
m
=
Λ
m
(
X
⏉
y
+
Λ
0
–1
μ
0
). При так определенных
новых переменных апостериорное распределение можно записать в виде нормаль-
ного:
p
(
w
|
X
,
y
)
∝
exp(–
1
/
2
(
w
–
μ
m
)
⏉
Λ
m
–1
(
w
–
μ
m
) +
1
/
2
μ
m
⏉
Λ
m
–1
μ
m
),
(5.77)
∝
exp(–
1
/
2
(
w
–
μ
m
)
⏉
Λ
m
–1
(
w
–
μ
m
)).
(5.78)
Все члены, не включающие вектор параметров
w
, опущены; они подразумеваются
в силу того факта, что распределение должно быть нормировано, так чтобы интеграл
оказался равен 1. Как нормируется многомерное нормальное распределение, показа-
но в формуле (3.23).
Изучение этого апостериорного распределения позволяет составить интуитивное
представление о поведении байесовского вывода. В большинстве случаев мы задаем
μ
0
равным
0
. Если положить
Λ
0
= (1/
α
)
I
, то
μ
m
дает ту же оценку
w
, что и частотная
линейная регрессия со снижением веса
α
w
⏉
w
. Одно отличие заключается в том, что
байесовская оценка не определена, если
α
равно 0 – запрещается начинать процесс
байесовского обучения с бесконечно широким априорным распределением
w
. Но
есть и более важное отличие – байесовская оценка дает ковариационную матрицу,
показывающую, насколько вероятны все значения
w
, а не только оценку
μ
m
.
5.6.1. Оценка апостериорного максимума (MAP)
Хотя принципиальный подход состоит в том, чтобы делать предсказания, используя
полное байесовское апостериорное распределение параметра
θ
, часто все же жела-
тельно иметь одну точечную оценку. Одна их причин – тот факт, что операции, вклю-
чающие байесовское апостериорное распределение для большинства интересных
моделей, как правило, вычислительно неразрешимы, а точечная оценка предлагает
разрешимую аппроксимацию. Вместо того чтобы просто возвращать оценку макси-
мального правдоподобия, мы можем все-таки воспользоваться некоторыми преиму-
ществами байесовского подхода, разрешив априорному распределению влиять на
выбор точечной оценки. Один из рациональных способов сделать это – взять оценку
апостериорного максимума (MAP). Это точка, в которой достигается максимальная
апостериорная вероятность (или максимальная плотность вероятности в более рас-
пространенном случае непрерывной величины
θ
).
θ
MAP
=
p
(
θ
|
x
) =
log
p
(
x
|
θ
) + log
p
(
θ
).
(5.79)
В правой части мы видим знакомый член log
p
(
x
|
θ
) – стандартное логарифмиче-
ское правдоподобие, а также слагаемое log
p
(
θ
), соответствующее априорному рас-
пределению.
В качестве примера рассмотрим модель линейной регрессии с нормальным апри-
орным распределением весов
w
. Если это распределение
𝒩
(
w
;
0
, (1/
λ
)
I
2
), то член
log
p
(
θ
) в формуле (5.79) пропорционален знакомому штрафу в виде снижения ве-
сов
λ
w
⏉
w
плюс член, не зависящий от
w
и не влияющий на процесс обучения. Таким
образом, байесовский вывод MAP с нормальным априорным распределением весов
соответствует снижению весов.
Байесовский вывод MAP, как и полный байесовский вывод, обладает тем преиму-
ществом, что задействует информацию, содержащуюся в априорном распределении,
но отсутствующую в обучающих данных. Эта дополнительная информация помогает
Алгоритмы обучения с учителем
129
уменьшить дисперсию точечной оценки MAP (по сравнению с оценкой максималь-
ного правдоподобия). Однако за это приходится расплачиваться увеличенным сме-
щением.
Многие регуляризированные стратегии оценивания, в частности оценку макси-
мального правдоподобия со снижением весом, можно интерпретировать как MAP-
аппроксимацию байесовского вывода. Эта точка зрения применима, когда процедура
регуляризации сводится к прибавлению дополнительного члена к целевой функции,
который соответствует log
p
(
θ
). Не все регуляризующие штрафы совместимы с байе-
совским выводом. Например, возможны члены-регуляризаторы, не являющиеся ло-
гарифмом распределения вероятности. Бывает и так, что член-регуляризатор зависит
от данных, что, конечно, недопустимо для априорного распределения.
Байесовский вывод MAP предлагает простой способ проектирования сложных,
но все же допускающих интерпретацию регуляризующих членов. Например, более
хитроумный штрафной член можно получить, взяв в качестве априорного смесь нор-
мальных распределений, а не единственное такое распределение (Nowlan and Hinton,
1992).
Do'stlaringiz bilan baham: |