Я. Гудфеллоу, И. Бенджио, А. Курвилль



Download 14,23 Mb.
Pdf ko'rish
bet274/779
Sana14.06.2022
Hajmi14,23 Mb.
#671946
TuriКнига
1   ...   270   271   272   273   274   275   276   277   ...   779
Bog'liq
Гудфеллоу Я , Бенджио И , Курвилль А Глубокое обучение

w
*
:
J

(
θ
) = 
J
(
w
*
) + 
1
/
2
(
w
– 
w
*
)

H
(
w
– 
w
*
), 
(7.33)
где 
H
– гессиан 
J
относительно 
w
, вычисленный в точке 
w
*
. Поскольку мы предполо-
жили, что 
w
*
– точка минимума 
J
(
w
), то 
H
является положительно полуопределенной. 
Аппроксимируя разложением в ряд Тейлора, получаем выражение для градиента:

w
J

(
w
) = 
H
(
w
– 
w
*
). 
(7.34)
Мы изучим траекторию вектора параметров в процессе обучения. Для простоты 
пусть начальный вектор параметров совпадает с началом координат
1

w
(0)
= 0. Мы 
составим приближенное представление о поведении градиентного спуска по 
J
, про-
анализировав градиентный спуск по 
J

:
w
(
τ
)

w
(
τ
–1)
– 
ε

w
J

(
w
(
τ
–1)

(7.35)

w
(
τ
–1)
– 
ε
H
(
w
(
τ
–1)
– 
w
*

(7.36)
w
(
τ
)
– 
w
*
= (
I
– 
ε
H
)(
w
(
τ
–1)
– 
w
*
). 
(7.37)
Перепишем это выражение в пространстве собственных векторов 
H
, воспользовав-
шись спектральным разложением 
H

H

Q
Λ
Q

, где 
Λ
– диагональная матрица, а 
Q
– 
ортогональная матрица собственных векторов.
w
(
τ
)
– 
w
*
= (
I
– 
ε
Q
Λ
Q

)(
w
(
τ
–1)
– 
w
*
), 
(7.38)
Q

(
w
(
τ
)
– 
w
*
) = (
I
– 
ε
Λ
)
Q

(
w
(
τ
–1)
– 
w
*
). 
(7.39)
В предположении, что 
w
(0)
= 0 и что 
ε
достаточно мало, чтобы выполнялось условие 
|1 – 
ελ
i
| < 1, траектория параметров в процессе обучения после 
τ
обновлений парамет-
ров описывается уравнением:
Q

w
(
τ
)
= [(
I
– (
I
– 
ε
Λ
)
τ
]
Q

w
*

(7.40)
Выражение 
Q

w
~ в уравнении (7.13) 
L
2
-регуляризации можно переписать в виде:
Q

w
~ = (
Λ

α
I
)
–1
Λ
Q

w
*

(7.41)
Q

w
~ = [
I
– (
Λ

α
I
)
–1
α
]
Q

w
*

(7.42)
Сравнивая уравнения (7.40) и (7.42), мы заключаем, что если выбрать гиперпара-
метры 
ε

α
и 
τ
, так чтобы
(
I
– 
ε
Λ
)
τ
= (
Λ

α
I
)
–1
α

(7.43)
то 
L
2
-регуляризацию и раннюю остановку можно считать эквивалентными (по край-
ней мере, в предположении о квадратичной аппроксимации целевой функции). Мы 
можем пойти даже дальше: прологарифмировав и воспользовавшись разложением 
в ряд функции log(1 + 
x
), приходим к выводу, что если все 
λ
i
малы (то есть 
ελ
i


и 
λ

/
α

1), то
1
В случае нейронных сетей мы хотим нарушить симметрию между скрытыми блоками и по-
тому не можем инициализировать все параметры нулями (см. раздел 6.2). Однако то же 
рассуждение проходит и для любого другого начального значения 
w
(0)
.


Связывание и разделение параметров 

219
(7.44)
(7.45)
Таким образом, в этих предположениях число итераций обучения 
τ
играет роль ве-
личины, обратно пропорциональной параметру 
L
2
-регуляризации, а число, обратное 
ετ
, – роль коэффициента снижения весов.
Значения параметров, соответствующие направлениям сильной кривизны целе-
вой функции, регуляризируются меньше, чем в направлениях меньшей кривизны. 
В контексте ранней остановки это в действительности означает, что параметры, соот-
ветствующие направлениям сильной кривизны, обучаются раньше параметров, соот-
ветствующих направлениям меньшей кривизны.
Выкладки, приведенные в этом разделе, показывают, что траектория длины 
τ
об-
рывается в точке, соответствующей минимуму 
L
2
-регуляризированной целевой 
функции. Конечно, ранняя остановка – больше, чем простое ограничение на длину 
траектории; ранняя остановка обычно подразумевает наблюдение за ошибкой на 
конт рольном наборе, чтобы оборвать траекторию в удачной точке пространства. По-
этому, по сравнению со снижением весов, у ранней остановки есть то преимущество, 
что она автоматически определяет правильную степень регуляризации, тогда как при 
использовании снижения весов требуется много экспериментов с разными значения-
ми гиперпараметра.
7.9. Связывание и разделение параметров
До сих пор в этой главе, обсуждая ограничения и штрафы, налагаемые на парамет-
ры, мы всегда отталкивались от фиксированной области или точки. Например, 
L
2
-ре-
гуляризация (или снижение весов) штрафует параметры модели за отклонение от 
фиксированного значения – нуля. Но иногда требуются другие способы выражения 
априорных знаний о подходящих значениях параметров модели. Возможно, мы не 
знаем точно, какие значения должны принимать параметры, но имеющиеся знания 
о предметной области и архитектуре модели позволяют заключить, что между пара-
метрами должны существовать некие зависимости.
Распространенный тип зависимости – близость некоторых параметров друг к дру-
гу. Рассмотрим такую ситуацию: есть две модели, решающие одну и ту же задачу 
классификации (с одинаковым набором классов), но с различающимися распределе-
ниями входных данных. Формально имеется модель 
A
с параметрами 

Download 14,23 Mb.

Do'stlaringiz bilan baham:
1   ...   270   271   272   273   274   275   276   277   ...   779




Ma'lumotlar bazasi mualliflik huquqi bilan himoyalangan ©hozir.org 2024
ma'muriyatiga murojaat qiling

kiriting | ro'yxatdan o'tish
    Bosh sahifa
юртда тантана
Боғда битган
Бугун юртда
Эшитганлар жилманглар
Эшитмадим деманглар
битган бодомлар
Yangiariq tumani
qitish marakazi
Raqamli texnologiyalar
ilishida muhokamadan
tasdiqqa tavsiya
tavsiya etilgan
iqtisodiyot kafedrasi
steiermarkischen landesregierung
asarlaringizni yuboring
o'zingizning asarlaringizni
Iltimos faqat
faqat o'zingizning
steierm rkischen
landesregierung fachabteilung
rkischen landesregierung
hamshira loyihasi
loyihasi mavsum
faolyatining oqibatlari
asosiy adabiyotlar
fakulteti ahborot
ahborot havfsizligi
havfsizligi kafedrasi
fanidan bo’yicha
fakulteti iqtisodiyot
boshqaruv fakulteti
chiqarishda boshqaruv
ishlab chiqarishda
iqtisodiyot fakultet
multiservis tarmoqlari
fanidan asosiy
Uzbek fanidan
mavzulari potok
asosidagi multiservis
'aliyyil a'ziym
billahil 'aliyyil
illaa billahil
quvvata illaa
falah' deganida
Kompyuter savodxonligi
bo’yicha mustaqil
'alal falah'
Hayya 'alal
'alas soloh
Hayya 'alas
mavsum boyicha


yuklab olish