Я. Гудфеллоу, И. Бенджио, А. Курвилль



Download 14,23 Mb.
Pdf ko'rish
bet321/779
Sana14.06.2022
Hajmi14,23 Mb.
#671946
TuriКнига
1   ...   317   318   319   320   321   322   323   324   ...   779
Bog'liq
Гудфеллоу Я , Бенджио И , Курвилль А Глубокое обучение

256 

 
Оптимизация в обучении глубоких моделей
ном алгоритме масса предполагается единичной, поэтому вектор скорости 
v
можно 
рассматривать как импульс частицы. Гиперпараметр 
α
∈ 
[0, 1) определяет скорость 
экспоненциального затухания вкладов предшествующих градиентов. Правило об-
новления имеет вид:
(8.15)
θ

θ

v
.
(8.16)
Алгоритм 8.2.
Стохастический градиентный спуск (СГС) с учетом импульса
Require:
скорость обучения 
ε
, параметр импульса 
α
Require:
начальные значения параметров 
θ
, начальная скорость 
v
while
критерий остановки не выполнен 
do
Выбрать из обучающего набора мини-пакет 
m
примеров {
x
(1)
, …, 
x
(
m
)
} и соот-
ветствующие им метки 
y
(
i
)
.
Вычислить оценку градиента: 
g

(1/
m
)

θ
Σ
i
L
(
f
(
x
(
i
)

θ
), 
y
(
i
)
).
Вычислить обновление скорости: 
v
← 
α
v
– 
ε
g
.
Применить обновление: 
θ

θ

v
.
end while
В скорости 
v
суммируются градиенты 

θ
((1/
m
)
Σ
m
i
=1
L
(
f
(
x
(
i
)

θ
), 
y
(
i
)
)). Чем больше 
α
относительно 
ε
, тем сильнее предшествующие градиенты влияют на выбор текущего 
направления. СГС с учетом импульса описан в алгоритме 8.2.
Раньше размер шага был равен просто норме градиента, умноженной на скорость 
обучения. Теперь же шаг зависит от величины и сонаправленности предшествующих 
градиентов. Размер шага максимален, когда много 
последовательных
градиентов ука-
зывают точно в одном и том же направлении. Если импульсный алгоритм всегда ви-
дит градиент 
g
, то он будет ускоряться в направлении –
g
, пока не достигнет конечной 
скорости, при которой размер шага равен
(8.17)
Таким образом, полезно рассматривать гиперпараметр импульса в терминах
1/(1 – 
α
). Например, 
α
 
= 0.9 соответствует умножению максимальной скорости на 10 
относительно стандартного алгоритма градиентного спуска.
На практике обычно задают 
α
равным 0.5, 0.9 или 0.99. Как и скорость обучения, 
α
может меняться со временем. Как правило, начинают с небольшого значения и по-
степенно увеличивают его. Изменение 
α
со временем не так важно, как уменьшение 
ε
со временем.
Импульсный алгоритм можно рассматривать как имитацию движения частицы, под-
чиняющейся динамике Ньютона. Физическая аналогия помогает составить интуитив-
ное представление о поведении алгоритма градиентного спуска и импульсного метода.
Положение частицы в любой момент времени описывается функцией 

Download 14,23 Mb.

Do'stlaringiz bilan baham:
1   ...   317   318   319   320   321   322   323   324   ...   779




Ma'lumotlar bazasi mualliflik huquqi bilan himoyalangan ©hozir.org 2024
ma'muriyatiga murojaat qiling

kiriting | ro'yxatdan o'tish
    Bosh sahifa
юртда тантана
Боғда битган
Бугун юртда
Эшитганлар жилманглар
Эшитмадим деманглар
битган бодомлар
Yangiariq tumani
qitish marakazi
Raqamli texnologiyalar
ilishida muhokamadan
tasdiqqa tavsiya
tavsiya etilgan
iqtisodiyot kafedrasi
steiermarkischen landesregierung
asarlaringizni yuboring
o'zingizning asarlaringizni
Iltimos faqat
faqat o'zingizning
steierm rkischen
landesregierung fachabteilung
rkischen landesregierung
hamshira loyihasi
loyihasi mavsum
faolyatining oqibatlari
asosiy adabiyotlar
fakulteti ahborot
ahborot havfsizligi
havfsizligi kafedrasi
fanidan bo’yicha
fakulteti iqtisodiyot
boshqaruv fakulteti
chiqarishda boshqaruv
ishlab chiqarishda
iqtisodiyot fakultet
multiservis tarmoqlari
fanidan asosiy
Uzbek fanidan
mavzulari potok
asosidagi multiservis
'aliyyil a'ziym
billahil 'aliyyil
illaa billahil
quvvata illaa
falah' deganida
Kompyuter savodxonligi
bo’yicha mustaqil
'alal falah'
Hayya 'alal
'alas soloh
Hayya 'alas
mavsum boyicha


yuklab olish