Я. Гудфеллоу, И. Бенджио, А. Курвилль


x (0) , оставив только  члены не выше второго порядка в ее разложении в ряд Тейлора: f ( x



Download 14,23 Mb.
Pdf ko'rish
bet98/779
Sana14.06.2022
Hajmi14,23 Mb.
#671946
TuriКнига
1   ...   94   95   96   97   98   99   100   101   ...   779
Bog'liq
Гудфеллоу Я , Бенджио И , Курвилль А Глубокое обучение

x
(0)
, оставив только 
члены не выше второго порядка в ее разложении в ряд Тейлора:
f
(
x


f
(
x
(0)
) + (
x
– 
x
(0)
)

g

1
/
2
(
x
– 
x
(0)
)

H
(
x
– 
x
(0)
), 
(4.8)
где 
g
– градиент, а 
H
– гессиан в точке 
x
(0)
. Если скорость обучения равна 
ε
, то новая 
точка 
x
определяется по формуле 
x
(0)
– 
ε
g
. Подставляя в приведенную выше формулу, 
получаем:
f
(
x
(0)
– 
ε
g


f
(
x
(0)
) – 
ε
g

g

1
/

ε
2
g

Hg

(4.9)
В этой формуле три члена: исходное значение функции, ожидаемое улучшение
обуслов ленное наклоном функции, и поправка на кривизну функции. Если послед-
ний член слишком велик, то шаг градиентного спуска может в действительности при-
вести к подъему. Если 
g

Hg
равно нулю или отрицательно, то аппроксимация рядом 
Тейлора предсказывает, что при постоянном увеличении 
ε
функция 
f
будет постоянно 
убывать. На практике ряд Тейлора редко дает точную аппроксимацию для больших 
ε
, поэтому при выборе значения 
ε
приходится прибегать к различным эврис тическим 
соображениям. Если 
g

Hg
положительно, то, решая уравнение, находим оптималь-
ную величину шага, при которой аппроксимация функции рядом Тейлора убывает 
в наибольшей степени:
(4.10)
В худшем случае, когда 
g
совпадает по направлению с собственным вектором 
H

соответствующим максимальному собственному значению 
λ
max
, эта оптимальная ве-
личина шага равна 1/
λ
max
. Следовательно, если минимизируемую функцию вообще 


Оптимизация градиентным методом 

89
можно хорошо аппроксимировать квадратичной, собственные значения матрицы Гес-
се определяют масштаб скорости обучения.
Вторую производную можно использовать, чтобы узнать, является ли критиче-
ская точка локальным максимумом, локальным минимумом или седловой точкой. 
Напомним, что в критической точке 
f

(
x
) = 0. Если вторая производная 
f
′′
(
x
) > 0, то 
первая производная 
f

(
x
) возрастает при сдвиге вправо и убывает при сдвиге влево, 
т. е. 
f

(
x
– 
ε
) < 0 и 
f

(
x

ε
) > 0 для достаточно малых 
ε
. Иными словами, когда мы 
смещаемся вправо, угловой коэффициент указывает на подъем с правой стороны
а при смещении влево – на подъем с левой стороны. Следовательно, если 
f

(
x
) = 0
и 
f
′′
(
x
) > 0, мы заключаем, что 
x
– локальный минимум. Аналогично, если 
f

(
x
) = 0 
и 
f
′′
(
x
) < 0, то 
x
– локальный максимум. Это так называемая 

Download 14,23 Mb.

Do'stlaringiz bilan baham:
1   ...   94   95   96   97   98   99   100   101   ...   779




Ma'lumotlar bazasi mualliflik huquqi bilan himoyalangan ©hozir.org 2024
ma'muriyatiga murojaat qiling

kiriting | ro'yxatdan o'tish
    Bosh sahifa
юртда тантана
Боғда битган
Бугун юртда
Эшитганлар жилманглар
Эшитмадим деманглар
битган бодомлар
Yangiariq tumani
qitish marakazi
Raqamli texnologiyalar
ilishida muhokamadan
tasdiqqa tavsiya
tavsiya etilgan
iqtisodiyot kafedrasi
steiermarkischen landesregierung
asarlaringizni yuboring
o'zingizning asarlaringizni
Iltimos faqat
faqat o'zingizning
steierm rkischen
landesregierung fachabteilung
rkischen landesregierung
hamshira loyihasi
loyihasi mavsum
faolyatining oqibatlari
asosiy adabiyotlar
fakulteti ahborot
ahborot havfsizligi
havfsizligi kafedrasi
fanidan bo’yicha
fakulteti iqtisodiyot
boshqaruv fakulteti
chiqarishda boshqaruv
ishlab chiqarishda
iqtisodiyot fakultet
multiservis tarmoqlari
fanidan asosiy
Uzbek fanidan
mavzulari potok
asosidagi multiservis
'aliyyil a'ziym
billahil 'aliyyil
illaa billahil
quvvata illaa
falah' deganida
Kompyuter savodxonligi
bo’yicha mustaqil
'alal falah'
Hayya 'alal
'alas soloh
Hayya 'alas
mavsum boyicha


yuklab olish