Я. Гудфеллоу, И. Бенджио, А. Курвилль



Download 14,23 Mb.
Pdf ko'rish
bet252/779
Sana14.06.2022
Hajmi14,23 Mb.
#671946
TuriКнига
1   ...   248   249   250   251   252   253   254   255   ...   779
Bog'liq
Гудфеллоу Я , Бенджио И , Курвилль А Глубокое обучение

w
*
= arg min
w
J
(
w
). Если целевая функция 
действительно квадратичная, как в случае модели линейной регрессии со среднеквад-
ратической ошибкой, то такая аппроксимация идеальна. Аппроксимация 
J

описыва-
ется формулой:
J
ˆ(
θ
) = 
J
(
w
*) + 
1
/
2
(
w
– 
w
*
)

H
(
w
– 
w
*
), 
(7.6)
где 
H
– матрица Гессе 
J
относительно 
w
, вычисленная в точке 
w
*
. В этой квадратичной 
аппроксимации нет члена первого порядка, потому что 
w
*
, по определению, точка ми-
нимума, в которой градиент обращается в нуль. Из того, что 
w
*
– точка минимума 
J

следует также, что матрица 
H
положительно полуопределенная.
Минимум 
J

достигается там, где градиент


J

(
w
) = 
H
(
w
– 
w
*

(7.7)
равен 0.
Чтобы изучить эффект снижения весов, модифицируем уравнение (7.7), прибавив 
градиент снижения весов. Теперь мы можем найти из него минимум регуляризиро-
ванного варианта 
J

. Обозначим 
w
~
положение точки минимума.
α
w
~

H
(
w
~
– 
w
*
) = 0. 
(7.8)
(
H

α
I
)
w
~

Hw
*

(7.9)
w
~
= (
H

α
I
)
–1
Hw
*

(7.10)
Когда 
α
стремится к 0, регуляризированное решение 
w
~
стремится к 
w
*
. Но что про-
исходит, когда 
α
возрастает? Поскольку матрица 
H
вещественная и симметричная, 
мы можем разложить ее в произведение диагональной матрицы 
Λ
и ортогональной 
матрицы собственных векторов 
Q

H

Q
Λ
Q

. Подставляя это разложение в уравне-
ние (7.10), получаем
w
~
= (
Q
Λ
Q


α
I
)
–1
Q
Λ
Q

w
*

(7.11)
= [
Q
(
Λ

α
I
)
Q

]
–1
Q
Λ
Q

w
*

(7.12)

Q
(
Λ

α
I
)
–1
Λ
Q

w
*

(7.13)
Мы видим, что результатом снижения весов является масштабирование 
w
*
вдоль 
направлений собственных векторов 
H
. Точнее, компонента 
w
*
, параллельная 
i
-му соб-
ственному вектору 
H
, умножается на коэффициент 
λ

/(
λ
i

α
). (Этот вид масштабиро-
вания ранее был проиллюстрирован на рис. 2.3.)
Вдоль направлений, для которых собственные значения 
H
относительно велики, 
например когда 
λ
i

α
, эффект регуляризации сравнительно мал. Те же компоненты, 
для которых 
λ
i

α
, сжимаются почти до нуля. Это показано на рис. 7.1.


Штрафы по норме параметров 

203
w
~
w
*
w
1
w
2
Рис. 7.1 

Иллюстрация влияния регуляризации по норме 
L
2
(снижения 
весов) на значение оптимального вектора w. Сплошными эллипсами пред-
ставлены линии равных значений нерегуляризированной целевой функции, 
а пунктирными – линии равных значений 
L
2
-регуляризатора. В точке 
w
~
эти 
конкурирующие цели достигают равновесия. По первому измерению соб-
ственное значение гессиана 
J
мало. Целевая функция слабо растет при 
удалении от 
w
*
по горизонтали. Поскольку целевая функция не выказывает 
сильного предпочтения этому направлению, регуляризатор дает для него 
значительный эффект. Регуляризатор подтягивает 
w
1
ближе к нулю. По вто-
рому направлению целевая функция очень чувствительна к удалению от 
w
*

Соответствующее собственное значение велико, что указывает на сильную 
кривизну. Поэтому снижение весов влияет на положение 
w
2
сравнительно 
слабо
Относительно неизменными остаются только те направления, в которых пара-
метры дают сильный вклад в уменьшение целевой функции. Если направление не 
дает вклада в уменьшение целевой функции, то собственное значение гессиана мало, 
т. е. движение в этом направлении не приводит к заметному возрастанию градиента. 
Компоненты вектора весов, соответствующие таким малозначимым направлениям, 
снижаются почти до нуля благодаря использованию регуляризации в ходе обучения. 
До сих пор мы обсуждали снижение весов в терминах воздействия на оптимизацию 
абстрактной квадратичной функции стоимости. Но как эти эффекты проявляются 
конкретно в машинном обучении? Это можно выяснить на примере изучения линей-
ной регрессии – модели, в которой истинная функция стоимости квадратичная и по-
тому поддается проведенному выше анализу. Повторяя те же рассуждения, мы полу-
чим для этого частного случая результат, сформулированный в терминах обучающих 
данных. Для линейной регрессии функция стоимости равна сумме квадратов ошибок:
(

Download 14,23 Mb.

Do'stlaringiz bilan baham:
1   ...   248   249   250   251   252   253   254   255   ...   779




Ma'lumotlar bazasi mualliflik huquqi bilan himoyalangan ©hozir.org 2024
ma'muriyatiga murojaat qiling

kiriting | ro'yxatdan o'tish
    Bosh sahifa
юртда тантана
Боғда битган
Бугун юртда
Эшитганлар жилманглар
Эшитмадим деманглар
битган бодомлар
Yangiariq tumani
qitish marakazi
Raqamli texnologiyalar
ilishida muhokamadan
tasdiqqa tavsiya
tavsiya etilgan
iqtisodiyot kafedrasi
steiermarkischen landesregierung
asarlaringizni yuboring
o'zingizning asarlaringizni
Iltimos faqat
faqat o'zingizning
steierm rkischen
landesregierung fachabteilung
rkischen landesregierung
hamshira loyihasi
loyihasi mavsum
faolyatining oqibatlari
asosiy adabiyotlar
fakulteti ahborot
ahborot havfsizligi
havfsizligi kafedrasi
fanidan bo’yicha
fakulteti iqtisodiyot
boshqaruv fakulteti
chiqarishda boshqaruv
ishlab chiqarishda
iqtisodiyot fakultet
multiservis tarmoqlari
fanidan asosiy
Uzbek fanidan
mavzulari potok
asosidagi multiservis
'aliyyil a'ziym
billahil 'aliyyil
illaa billahil
quvvata illaa
falah' deganida
Kompyuter savodxonligi
bo’yicha mustaqil
'alal falah'
Hayya 'alal
'alas soloh
Hayya 'alas
mavsum boyicha


yuklab olish