Я. Гудфеллоу, И. Бенджио, А. Курвилль


Require: небольшая константа  δ для обеспечения численной устойчивости (по  умолчанию 10 –8 ). Require



Download 14,23 Mb.
Pdf ko'rish
bet332/779
Sana14.06.2022
Hajmi14,23 Mb.
#671946
TuriКнига
1   ...   328   329   330   331   332   333   334   335   ...   779
Bog'liq
Гудфеллоу Я , Бенджио И , Курвилль А Глубокое обучение

Require:
небольшая константа 
δ
для обеспечения численной устойчивости (по 
умолчанию 10
–8
).
Require:
начальные значения параметров 
θ
.
Инициализировать переменные для первого и второго моментов 
s

0

r

0
Инициализировать шаг по времени 
t
= 0
while
критерий остановки не выполнен 
do
Выбрать из обучающего набора мини-пакет 
m
примеров {
x
(1)
, …, 
x
(
m
)
} и соот-
ветствующие им метки 
y
(
i
)
.
Вычислить градиент: 
g

(1/
m
)

θ
Σ
i
L
(
f
(
x
(
i
)
;
 
θ
), 
y
(
i
)
).
t

t
+ 1
Обновить смещенную оценку первого момента: 
s

ρ
1
s
+ (1 – 
ρ
1
)
g
Обновить смещенную оценку второго момента: 
r

ρ
2
r
+ (1 – 
ρ
2
)

⊙ 
g
Скорректировать смещение первого момента: 
Скорректировать смещение второго момента:
Вычислить обновление:
(операции применяются к каждому 
элементу)
Применить обновление: 
θ

θ

Δ
θ
.
end while
8.5.4. Выбор правильного алгоритма оптимизации
Мы обсудили ряд родственных алгоритмов, каждый из которых пытается решить 
проблему оптимизации глубоких моделей, адаптируя скорость обучения каждого па-
раметра. Возникает естественный вопрос: какой алгоритм выбрать?
К сожалению, в настоящее время единого мнения нет. В работе Schaul et al. (2014) 
представлено ценное сравнение большого числа алгоритмов оптимизации в примене-
нии к различным задачам обучения. И хотя результаты показывают, что семейство ал-
горитмов с адаптивной скоростью обучения (представленное алгоритмами RMSProp 
и AdaDelta) ведет себя достаточно устойчиво, явный победитель не выявлен.


Приближенные методы второго порядка 

267
Сейчас наиболее популярны и активно применяются алгоритмы СГС, СГС с уче-
том импульса, RMSProp, RMSProp с учетом импульса, AdaDelta и Adam. Какой из 
них использовать, зависит главным образом от знакомства пользователя с алгорит-
мом (читай: умения настраивать гиперпараметры).
8.6. Приближенные методы второго порядка
В этом разделе мы обсудим применение методов второго порядка к обучению глу-
боких сетей. Одно из первых изложений этой темы см. в работе LeCun et al. (1998a). 
Для простоты мы будем рассматривать только одну целевую функцию: эмпириче-
ский риск:
(8.25)
Впрочем, рассматриваемые здесь методы легко обобщаются на другие целевые 
функции, в т. ч. включающие члены регуляризации, обсуждавшиеся в главе 7.
8.6.1. Метод Ньютона
В разделе 4.3 мы познакомились с градиентными методами второго порядка. В от-
личие от методов первого порядка, в этом случае для улучшения оптимизации за-
действуются вторые производные. Самый известный метод второго порядка – метод 
Ньютона. Опишем его более подробно с акцентом на применении к обучению ней-
ронных сетей.
Метод Ньютона основан на использовании разложения в ряд Тейлора с точностью 
до членов второго порядка для аппроксимации 
J
(

Download 14,23 Mb.

Do'stlaringiz bilan baham:
1   ...   328   329   330   331   332   333   334   335   ...   779




Ma'lumotlar bazasi mualliflik huquqi bilan himoyalangan ©hozir.org 2024
ma'muriyatiga murojaat qiling

kiriting | ro'yxatdan o'tish
    Bosh sahifa
юртда тантана
Боғда битган
Бугун юртда
Эшитганлар жилманглар
Эшитмадим деманглар
битган бодомлар
Yangiariq tumani
qitish marakazi
Raqamli texnologiyalar
ilishida muhokamadan
tasdiqqa tavsiya
tavsiya etilgan
iqtisodiyot kafedrasi
steiermarkischen landesregierung
asarlaringizni yuboring
o'zingizning asarlaringizni
Iltimos faqat
faqat o'zingizning
steierm rkischen
landesregierung fachabteilung
rkischen landesregierung
hamshira loyihasi
loyihasi mavsum
faolyatining oqibatlari
asosiy adabiyotlar
fakulteti ahborot
ahborot havfsizligi
havfsizligi kafedrasi
fanidan bo’yicha
fakulteti iqtisodiyot
boshqaruv fakulteti
chiqarishda boshqaruv
ishlab chiqarishda
iqtisodiyot fakultet
multiservis tarmoqlari
fanidan asosiy
Uzbek fanidan
mavzulari potok
asosidagi multiservis
'aliyyil a'ziym
billahil 'aliyyil
illaa billahil
quvvata illaa
falah' deganida
Kompyuter savodxonligi
bo’yicha mustaqil
'alal falah'
Hayya 'alal
'alas soloh
Hayya 'alas
mavsum boyicha


yuklab olish