Я. Гудфеллоу, И. Бенджио, А. Курвилль



Download 14,23 Mb.
Pdf ko'rish
bet331/779
Sana14.06.2022
Hajmi14,23 Mb.
#671946
TuriКнига
1   ...   327   328   329   330   331   332   333   334   ...   779
Bog'liq
Гудфеллоу Я , Бенджио И , Курвилль А Глубокое обучение

Алгоритм 8.4.
Алгоритм AdaGrad
Require:
глобальная скорость обучения 
ε
Require:
начальные значения параметров 
θ
Require:
небольшая константа 
δ
, например 10
–7
, для обеспечения численной 
устойчивости
Инициализировать переменную для агрегирования градиента 
r

0
while
критерий остановки не выполнен 
do
Выбрать из обучающего набора мини-пакет 
m
примеров {
x
(1)
, …, 
x
(
m
)
} и соот-
ветствующие им метки 
y
(
i
)
.
Вычислить градиент: 
g

(1/
m
)

θ
Σ
i
L
(
f
(
x
(
i
)

θ
), 
y
(
i
)
).
Агрегировать квадраты градиента: 
r

r

g

g
.
Вычислить обновление: 
Δ
θ



g
(операции деления и извлечения 
корня применяются к каждому элементу).
Применить обновление: 
θ

θ

Δ
θ
.
end while


Алгоритмы с адаптивной скоростью обучения 

265
Алгоритм 8.5 содержит описание RMSProp в стандартной форме, а алгоритм 8.6 – 
в сочетании с методом Нестерова. По сравнению с AdaGrad вводится новый гипер-
параметр 
ρ
, управляющий масштабом длины при вычислении скользящего среднего.
Алгоритм 8.5.
Алгоритм RMSProp
Require:
глобальная скорость обучения 
ε
, скорость затухания 
ρ
Require:
начальные значения параметров 
θ
Require:
небольшая константа 
δ
, например 10
–6
, для стабилизации деления на 
малые числа
Инициализировать переменную для агрегирования градиента 
r
= 0
while
критерий остановки не выполнен 
do
Выбрать из обучающего набора мини-пакет 
m
примеров {
x
(1)
, …, 
x
(
m
)
} и соот-
ветствующие им метки 
y
(
i
)
.
Вычислить градиент: 
g

(1/
m
)

θ
Σ
i
L
(
f
(
x
(
i
)

θ
), 
y
(
i
)
).
Агрегировать квадраты градиента: 
r

ρ
r
+ (1 – 
ρ

g

g
.
Вычислить обновление параметров: 
Δ
θ



g
(операция 
применяется к каждому элементу).
Применить обновление: 
θ

θ

Δ
θ
.
end while
Алгоритм 8.6.
Алгоритм RMSProp в сочетании с методом Нестерова
Require:
глобальная скорость обучения 
ε
, скорость затухания 
ρ

коэффициент 
импульса 
α
Require:
начальные значения параметров 
θ
, начальная скорость 
v
Инициализировать переменную для агрегирования градиента 
r

0
while
критерий остановки не выполнен 
do
Выбрать из обучающего набора мини-пакет 
m
примеров {
x
(1)
, …, 
x
(
m
)
} и соот-
ветствующие им метки 
y
(
i
)
.
Вычислить промежуточное обновление: 
θ
~

θ

α
v
Вычислить градиент: 
g

(1/
m
)

θ
~
Σ
i
L
(
f
(
x
(
i
)

θ
~
), 
y
(
i
)
).
Агрегировать градиент: 
r

ρ
r
+ (1 – 
ρ

g

g
.
Вычислить обновление скорости: 
v

α
v
– (
ε
/

_
r



(операция 1/

_
r
при-
меняется к каждому элементу).
Применить обновление: 
θ

θ

v
.
end while
Эмпирически показано, что RMSProp – эффективный и практичный алгоритм 
оптимизации глубоких нейронных сетей. В настоящее время он считается одним из 
лучших методов оптимизации и постоянно используется в практической работе.
8.5.3. Adam
Adam (Kingma and Ba, 2014) – еще один алгоритм оптимизации с адаптивной ско-
ростью обучения – описан в алгоритме 8.7. Название «Adam» – сокращение от «adap-
tive moments» (адаптивные моменты). Его, наверное, правильнее всего рассматривать 
как комбинацию RMSProp и импульсного метода с несколькими важными отличия-
ми. Во-первых, в Adam импульс включен непосредственно в виде оценки первого 
момента (с экспоненциальными весами) градиента. Самый прямой способ добавить 


266 

 
Оптимизация в обучении глубоких моделей
импульс в RMSProp – применить его к масштабированным градиентам. У использо-
вания импульса в сочетании с масштабированием нет ясного теоретического обос-
нования. Во-вторых, Adam включает поправку на смещение в оценки как первых 
моментов (член импульса), так и вторых (нецентрированных) моментов для учета 
их инициализации в начале координат (см. алгоритм 8.7). RMSProp также включает 
оценку (нецентрированного) второго момента, однако в нем нет поправочного коэф-
фициента. Таким образом, в отличие от Adam, в RMSProp оценка второго момента 
может иметь высокое смещение на ранних стадиях обучения. Вообще говоря, Adam 
считается довольно устойчивым к выбору гиперпараметров, хотя скорость обучения 
иногда нужно брать отличной от предлагаемой по умолчанию.
Алгоритм 8.7.
Алгоритм Adam
Require:
величина шага 
ε
(по умолчанию 0.001).
Require:
коэффициенты экспоненциального затухания для оценок моментов 
ρ
1
и 
ρ
2
, принадлежащие диапазону [0, 1) (по умолчанию 0.9 и 0.999 соответст-
венно).

Download 14,23 Mb.

Do'stlaringiz bilan baham:
1   ...   327   328   329   330   331   332   333   334   ...   779




Ma'lumotlar bazasi mualliflik huquqi bilan himoyalangan ©hozir.org 2024
ma'muriyatiga murojaat qiling

kiriting | ro'yxatdan o'tish
    Bosh sahifa
юртда тантана
Боғда битган
Бугун юртда
Эшитганлар жилманглар
Эшитмадим деманглар
битган бодомлар
Yangiariq tumani
qitish marakazi
Raqamli texnologiyalar
ilishida muhokamadan
tasdiqqa tavsiya
tavsiya etilgan
iqtisodiyot kafedrasi
steiermarkischen landesregierung
asarlaringizni yuboring
o'zingizning asarlaringizni
Iltimos faqat
faqat o'zingizning
steierm rkischen
landesregierung fachabteilung
rkischen landesregierung
hamshira loyihasi
loyihasi mavsum
faolyatining oqibatlari
asosiy adabiyotlar
fakulteti ahborot
ahborot havfsizligi
havfsizligi kafedrasi
fanidan bo’yicha
fakulteti iqtisodiyot
boshqaruv fakulteti
chiqarishda boshqaruv
ishlab chiqarishda
iqtisodiyot fakultet
multiservis tarmoqlari
fanidan asosiy
Uzbek fanidan
mavzulari potok
asosidagi multiservis
'aliyyil a'ziym
billahil 'aliyyil
illaa billahil
quvvata illaa
falah' deganida
Kompyuter savodxonligi
bo’yicha mustaqil
'alal falah'
Hayya 'alal
'alas soloh
Hayya 'alas
mavsum boyicha


yuklab olish