Я. Гудфеллоу, И. Бенджио, А. Курвилль



Download 14,23 Mb.
Pdf ko'rish
bet423/779
Sana14.06.2022
Hajmi14,23 Mb.
#671946
TuriКнига
1   ...   419   420   421   422   423   424   425   426   ...   779
Bog'liq
Гудфеллоу Я , Бенджио И , Курвилль А Глубокое обучение

h
(
t
)

W

h
(
t
–1) 
(10.36)
можно рассматривать как очень простую РНС без функции активации и без входов 
x
. В разделе 8.2.5 было отмечено, что это соотношение, по существу, описывает воз-
ведение в степень. Его можно упростить следующим образом:


340 

 
Моделирование последовательностей: рекуррентные и рекурсивные сети
h
(
t
)
= (
W
t
)

h
(0)
,
(10.37)
а если 
W
допускает спектральное разложение вида
W

Q
Λ
Q

,
(10.38)
где 
Q
– ортогональная матрица, то это соотношение можно еще упростить:
h
(
t
)

Q

Λ
t
Qh
(0)
.
(10.39)
Собственные значения возводятся в степень 
t
, в результате чего собственные зна-
чения, которые по абсолютной величине меньше 1, стремятся к нулю, а те, что больше 
1, резко возрастают. В конечном итоге компоненты 
h
(0)
, не сонаправленные наиболь-
шему собственному вектору, будут отброшены.
Эта проблема особенно остро стоит для рекуррентных сетей. Возьмем скалярный 
случай и представим себе многократное умножение веса 
w
на себя. В зависимости от 
абсолютной величины 
w
произведение 
w
t
будет стремиться либо к нулю, либо к бес-
конечности. Если построить нерекуррентную сеть с различными весами 
w
(
t
)
на каж-
дом временном шаге, то ситуация будет иной. Если начальное состояние равно 1, то 
состояние в момент 
t
равно произведению 

t
w
(
t
)
. Предположим, что значения 
w
(
t
)
ге-
нерируются случайным образом независимо друг от друга с нулевым средним и дис-
персией 
v
. Тогда дисперсия произведения равна 
O
(
v
n
). Чтобы получить желае мую 
дисперсию 
v
*
, мы можем подобрать индивидуальные веса, так чтобы их дисперсия 
была равна 
v

n

_
v
*
. Таким образом, даже в очень глубоких сетях за счет тщательно по-
добранного масштабирования можно избежать проблемы исчезающего и взрывного 
градиента (см. Sussillo (2014)).
Проблема исчезающего и взрывного градиента для РНС была независимо обна-
ружена несколькими исследователями (Hochreiter, 1991; Bengio et al., 1993, 1994). 
Можно было бы надеяться избежать ее, просто оставаясь в области пространства 
параметров, где градиенты не исчезают и не растут взрывообразно. К сожалению, 
для хранения «воспоминаний» способом, устойчивым к малым возмущениям, РНС 
должна войти в область пространства параметров, где градиенты исчезают (Bengio et 
al., 1993, 1994). Точнее говоря, если модель способна представить долгосрочные за-
висимости, то абсолютная величина градиента долгосрочного взаимодействия экспо-
ненциально меньше, чем краткосрочного. Это не означает, что сеть вообще невозмож-
но обучить, просто обучение долгосрочных зависимостей может занять очень много 
времени, потому что сигнал об этих зависимостях будет замаскирован мельчайшими 
флуктуациями, возникающими из-за краткосрочных зависимостей. Эксперименты, 
описанные в работе Bengio et al. (1994), показывают, что на практике по мере уве-
личения протяженности зависимостей, которые требуется запоминать, градиентная 
оптимизация становится все труднее, и вероятность успешно обучить традиционную 
РНС методом стохастического градиентного спуска быстро спадает до 0, когда длина 
последовательностей равна всего 10 или 20.
Более глубокое рассмотрение рекуррентных сетей как динамических систем см. 
в работах Doya (1993), Bengio et al. (1994), Siegelmann and Sontag (1995), а обзор ли-
тературы – в работе Pascanu et al. (2013). Далее в этой главе мы рассмотрим различ-
ные подходы, предложенные с целью уменьшить трудность обучения долгосрочных 
зависимостей (иногда удается обучить РНС зависимостям, существующим на про-
тяжении сотен шагов), однако отметим, что эта проблема остается одной из главных 
в машинном обучении.


Нейронные эхо-сети 


Download 14,23 Mb.

Do'stlaringiz bilan baham:
1   ...   419   420   421   422   423   424   425   426   ...   779




Ma'lumotlar bazasi mualliflik huquqi bilan himoyalangan ©hozir.org 2024
ma'muriyatiga murojaat qiling

kiriting | ro'yxatdan o'tish
    Bosh sahifa
юртда тантана
Боғда битган
Бугун юртда
Эшитганлар жилманглар
Эшитмадим деманглар
битган бодомлар
Yangiariq tumani
qitish marakazi
Raqamli texnologiyalar
ilishida muhokamadan
tasdiqqa tavsiya
tavsiya etilgan
iqtisodiyot kafedrasi
steiermarkischen landesregierung
asarlaringizni yuboring
o'zingizning asarlaringizni
Iltimos faqat
faqat o'zingizning
steierm rkischen
landesregierung fachabteilung
rkischen landesregierung
hamshira loyihasi
loyihasi mavsum
faolyatining oqibatlari
asosiy adabiyotlar
fakulteti ahborot
ahborot havfsizligi
havfsizligi kafedrasi
fanidan bo’yicha
fakulteti iqtisodiyot
boshqaruv fakulteti
chiqarishda boshqaruv
ishlab chiqarishda
iqtisodiyot fakultet
multiservis tarmoqlari
fanidan asosiy
Uzbek fanidan
mavzulari potok
asosidagi multiservis
'aliyyil a'ziym
billahil 'aliyyil
illaa billahil
quvvata illaa
falah' deganida
Kompyuter savodxonligi
bo’yicha mustaqil
'alal falah'
Hayya 'alal
'alas soloh
Hayya 'alas
mavsum boyicha


yuklab olish