h
(
t
)
=
W
⏉
h
(
t
–1)
(10.36)
можно рассматривать как очень простую РНС без функции активации и без входов
x
. В разделе 8.2.5 было отмечено, что это соотношение, по существу, описывает воз-
ведение в степень. Его можно упростить следующим образом:
340
Моделирование последовательностей: рекуррентные и рекурсивные сети
h
(
t
)
= (
W
t
)
⏉
h
(0)
,
(10.37)
а если
W
допускает спектральное разложение вида
W
=
Q
Λ
Q
⏉
,
(10.38)
где
Q
– ортогональная матрица, то это соотношение можно еще упростить:
h
(
t
)
=
Q
⏉
Λ
t
Qh
(0)
.
(10.39)
Собственные значения возводятся в степень
t
, в результате чего собственные зна-
чения, которые по абсолютной величине меньше 1, стремятся к нулю, а те, что больше
1, резко возрастают. В конечном итоге компоненты
h
(0)
, не сонаправленные наиболь-
шему собственному вектору, будут отброшены.
Эта проблема особенно остро стоит для рекуррентных сетей. Возьмем скалярный
случай и представим себе многократное умножение веса
w
на себя. В зависимости от
абсолютной величины
w
произведение
w
t
будет стремиться либо к нулю, либо к бес-
конечности. Если построить нерекуррентную сеть с различными весами
w
(
t
)
на каж-
дом временном шаге, то ситуация будет иной. Если начальное состояние равно 1, то
состояние в момент
t
равно произведению
∏
t
w
(
t
)
. Предположим, что значения
w
(
t
)
ге-
нерируются случайным образом независимо друг от друга с нулевым средним и дис-
персией
v
. Тогда дисперсия произведения равна
O
(
v
n
). Чтобы получить желае мую
дисперсию
v
*
, мы можем подобрать индивидуальные веса, так чтобы их дисперсия
была равна
v
=
n
√
_
v
*
. Таким образом, даже в очень глубоких сетях за счет тщательно по-
добранного масштабирования можно избежать проблемы исчезающего и взрывного
градиента (см. Sussillo (2014)).
Проблема исчезающего и взрывного градиента для РНС была независимо обна-
ружена несколькими исследователями (Hochreiter, 1991; Bengio et al., 1993, 1994).
Можно было бы надеяться избежать ее, просто оставаясь в области пространства
параметров, где градиенты не исчезают и не растут взрывообразно. К сожалению,
для хранения «воспоминаний» способом, устойчивым к малым возмущениям, РНС
должна войти в область пространства параметров, где градиенты исчезают (Bengio et
al., 1993, 1994). Точнее говоря, если модель способна представить долгосрочные за-
висимости, то абсолютная величина градиента долгосрочного взаимодействия экспо-
ненциально меньше, чем краткосрочного. Это не означает, что сеть вообще невозмож-
но обучить, просто обучение долгосрочных зависимостей может занять очень много
времени, потому что сигнал об этих зависимостях будет замаскирован мельчайшими
флуктуациями, возникающими из-за краткосрочных зависимостей. Эксперименты,
описанные в работе Bengio et al. (1994), показывают, что на практике по мере уве-
личения протяженности зависимостей, которые требуется запоминать, градиентная
оптимизация становится все труднее, и вероятность успешно обучить традиционную
РНС методом стохастического градиентного спуска быстро спадает до 0, когда длина
последовательностей равна всего 10 или 20.
Более глубокое рассмотрение рекуррентных сетей как динамических систем см.
в работах Doya (1993), Bengio et al. (1994), Siegelmann and Sontag (1995), а обзор ли-
тературы – в работе Pascanu et al. (2013). Далее в этой главе мы рассмотрим различ-
ные подходы, предложенные с целью уменьшить трудность обучения долгосрочных
зависимостей (иногда удается обучить РНС зависимостям, существующим на про-
тяжении сотен шагов), однако отметим, что эта проблема остается одной из главных
в машинном обучении.
Нейронные эхо-сети
Do'stlaringiz bilan baham: |