Я. Гудфеллоу, И. Бенджио, А. Курвилль


Пример: байесовская линейная регрессия



Download 14,23 Mb.
Pdf ko'rish
bet153/779
Sana14.06.2022
Hajmi14,23 Mb.
#671946
TuriКнига
1   ...   149   150   151   152   153   154   155   156   ...   779
Bog'liq
Гудфеллоу Я , Бенджио И , Курвилль А Глубокое обучение

Пример: байесовская линейная регрессия.
Рассмотрим байесовский подход 
к обуче нию параметров линейной регрессии. Мы хотим обучить линейное отображе-
ние входного вектора 
x
∈ ℝ
n
для предсказания скалярного значения 
y
∈ ℝ
. Предсказа-
ние параметризуется вектором 
w
∈ ℝ
n
:
y


w

x
.
 
(5.69)
Если дано множество 
m
обучающих примеров (
X
(train)

y
(train)
), то предсказание 
y
по 
всему обучающему набору можно выразить в виде
y

(train)

X
(train)
w
.
 
(5.70)
Предполагая нормальное условное распределение 
y
(train)
, имеем
p
(
y
(train)

X
(train)

w
) = 
𝒩
(
y
(train)

X
(train)
w

I
),
 
(5.71)

exp(–
1
/
2
(
y
(train)
– 
X
(train)
w
)

(
y
(train)
– 
X
(train)
w
)),
 
(5.72)
где используется стандартное для записи среднеквадратической ошибки предполо-
жение о том, что дисперсия 
y
равна 1. В дальнейшем мы во избежание громоздкости 
будем вместо (
X
(train)

y
(train)
) писать просто (
X

y
).
Для определения апостериорного распределения вектора параметров модели 
w
нужно сначала задать априорное распределение. Оно должно отражать наши наивные 
представления о ценности параметров. Иногда выразить априорные представления 
в терминах параметров модели трудно или неестественно, но на практике мы обычно 
предполагаем довольно широкое распределение, выражающее высокую степень не-
определенности 
θ
. Для вещественных параметров часто в качестве априорного берут 
нормальное распределение.
p
(
w
) = 
𝒩
(
w

μ
0

Λ
0


exp(–
1
/
2
(
w
– 
μ
0
)
⏉ 
Λ
0
–1
(
w
– 
μ
0
)),
 
(5.73)
где 
μ
0
и 
Λ
0
– средний вектор априорного распределения и ковариационная матрица 
соответственно
1
.
При таком задании априорного распределения мы теперь можем перейти к опреде-
лению 
апостериорного
распределения параметров модели:
p
(
w

X

y


p
(
y

X

w
)
p
(
w
),
 
(5.74)

exp(–
1
/
2
(
y
– 
Xw
)

(
y
– 
Xw
)) exp(–
1
/
2
(
w
– 
μ
0
)
⏉ 
Λ
0
–1
(
w
– 
μ
0
))
 
(5.75)

exp(–
1
/
2
(–2
y

Xw

w

X

Xw

w

Λ
0
–1
w
– 2
μ
0

Λ
0
–1
w
)).
 
(5.76)
1
Если нет причин использовать конкретную структуру ковариационной матрицы, то обычно 
берется диагональная 
Λ
0
= diag(
λ
0
).


128 

 
Основы машинного обучения 
Определим 
Λ
m
= (
X

X

Λ
0
–1
)
–1
и 
μ
m

Λ
m
(
X

y

Λ
0
–1
μ
0
). При так определенных 
новых переменных апостериорное распределение можно записать в виде нормаль-
ного:
p
(
w

X

y


exp(–
1
/
2
(
w
– 
μ
m
)
⏉ 
Λ
m
–1
(
w
– 
μ
m
) + 
1
/
2
μ
m

Λ
m
–1
μ
m
),
 
(5.77)

exp(–
1
/
2
(
w
– 
μ
m
)
⏉ 
Λ
m
–1
(
w
– 
μ
m
)).
 
(5.78)
Все члены, не включающие вектор параметров 
w
, опущены; они подразумеваются 
в силу того факта, что распределение должно быть нормировано, так чтобы интеграл 
оказался равен 1. Как нормируется многомерное нормальное распределение, показа-
но в формуле (3.23).
Изучение этого апостериорного распределения позволяет составить интуитивное 
представление о поведении байесовского вывода. В большинстве случаев мы задаем 
μ

равным 
0
. Если положить 
Λ
0
= (1/
α
)
I
, то 
μ
m
дает ту же оценку 
w
, что и частотная 
линейная регрессия со снижением веса 
α
w

w
. Одно отличие заключается в том, что 
байесовская оценка не определена, если 
α
равно 0 – запрещается начинать процесс 
байесовского обучения с бесконечно широким априорным распределением 
w
. Но 
есть и более важное отличие – байесовская оценка дает ковариационную матрицу, 
показывающую, насколько вероятны все значения 
w
, а не только оценку 
μ
m
.
5.6.1. Оценка апостериорного максимума (MAP)
Хотя принципиальный подход состоит в том, чтобы делать предсказания, используя 
полное байесовское апостериорное распределение параметра 
θ
, часто все же жела-
тельно иметь одну точечную оценку. Одна их причин – тот факт, что операции, вклю-
чающие байесовское апостериорное распределение для большинства интересных 
моделей, как правило, вычислительно неразрешимы, а точечная оценка предлагает 
разрешимую аппроксимацию. Вместо того чтобы просто возвращать оценку макси-
мального правдоподобия, мы можем все-таки воспользоваться некоторыми преиму-
ществами байесовского подхода, разрешив априорному распределению влиять на 
выбор точечной оценки. Один из рациональных способов сделать это – взять оценку 
апостериорного максимума (MAP). Это точка, в которой достигается максимальная 
апостериорная вероятность (или максимальная плотность вероятности в более рас-
пространенном случае непрерывной величины 
θ
).
θ
MAP

p
(
θ

x
) = 
log 
p
(
x

θ
) + log 
p
(
θ
). 
(5.79)
В правой части мы видим знакомый член log 
p
(
x

θ
) – стандартное логарифмиче-
ское правдоподобие, а также слагаемое log 
p
(
θ
), соответствующее априорному рас-
пределению.
В качестве примера рассмотрим модель линейной регрессии с нормальным апри-
орным распределением весов 
w
. Если это распределение 
𝒩
(
w

0
, (1/
λ
)
I
2
), то член 
log 
p
(
θ
) в формуле (5.79) пропорционален знакомому штрафу в виде снижения ве-
сов 
λ
w

w
плюс член, не зависящий от 
w
и не влияющий на процесс обучения. Таким 
образом, байесовский вывод MAP с нормальным априорным распределением весов 
соответствует снижению весов.
Байесовский вывод MAP, как и полный байесовский вывод, обладает тем преиму-
ществом, что задействует информацию, содержащуюся в априорном распределении, 
но отсутствующую в обучающих данных. Эта дополнительная информация помогает 


Алгоритмы обучения с учителем 

129
уменьшить дисперсию точечной оценки MAP (по сравнению с оценкой максималь-
ного правдоподобия). Однако за это приходится расплачиваться увеличенным сме-
щением.
Многие регуляризированные стратегии оценивания, в частности оценку макси-
мального правдоподобия со снижением весом, можно интерпретировать как MAP-
аппроксимацию байесовского вывода. Эта точка зрения применима, когда процедура 
регуляризации сводится к прибавлению дополнительного члена к целевой функции, 
который соответствует log 
p
(
θ
). Не все регуляризующие штрафы совместимы с байе-
совским выводом. Например, возможны члены-регуляризаторы, не являющиеся ло-
гарифмом распределения вероятности. Бывает и так, что член-регуляризатор зависит 
от данных, что, конечно, недопустимо для априорного распределения.
Байесовский вывод MAP предлагает простой способ проектирования сложных, 
но все же допускающих интерпретацию регуляризующих членов. Например, более 
хитроумный штрафной член можно получить, взяв в качестве априорного смесь нор-
мальных распределений, а не единственное такое распределение (Nowlan and Hinton, 
1992).

Download 14,23 Mb.

Do'stlaringiz bilan baham:
1   ...   149   150   151   152   153   154   155   156   ...   779




Ma'lumotlar bazasi mualliflik huquqi bilan himoyalangan ©hozir.org 2024
ma'muriyatiga murojaat qiling

kiriting | ro'yxatdan o'tish
    Bosh sahifa
юртда тантана
Боғда битган
Бугун юртда
Эшитганлар жилманглар
Эшитмадим деманглар
битган бодомлар
Yangiariq tumani
qitish marakazi
Raqamli texnologiyalar
ilishida muhokamadan
tasdiqqa tavsiya
tavsiya etilgan
iqtisodiyot kafedrasi
steiermarkischen landesregierung
asarlaringizni yuboring
o'zingizning asarlaringizni
Iltimos faqat
faqat o'zingizning
steierm rkischen
landesregierung fachabteilung
rkischen landesregierung
hamshira loyihasi
loyihasi mavsum
faolyatining oqibatlari
asosiy adabiyotlar
fakulteti ahborot
ahborot havfsizligi
havfsizligi kafedrasi
fanidan bo’yicha
fakulteti iqtisodiyot
boshqaruv fakulteti
chiqarishda boshqaruv
ishlab chiqarishda
iqtisodiyot fakultet
multiservis tarmoqlari
fanidan asosiy
Uzbek fanidan
mavzulari potok
asosidagi multiservis
'aliyyil a'ziym
billahil 'aliyyil
illaa billahil
quvvata illaa
falah' deganida
Kompyuter savodxonligi
bo’yicha mustaqil
'alal falah'
Hayya 'alal
'alas soloh
Hayya 'alas
mavsum boyicha


yuklab olish