348
Моделирование последовательностей: рекуррентные и рекурсивные сети
следующего целевого состояния, и вносят дополнительный нелинейный эффект в со-
отношение между прошлым и будущим состояниями.
На эту тему возможно еще много вариаций. Например, выход вентиля сброса (или
вентиля забывания) можно разделить между несколькими скрытыми блоками. Или
использовать произведение глобального вентиля (управляющего целой группой бло-
ков, например всем слоем) и локального вентиля (управляющего одним блоком) для
комбинирования глобального и локального управлений. Однако в нескольких иссле-
дованиях архитектурных вариантов LSTM и GRU не найдено решения, которое было
бы очевидно лучше обоих на широком круге задач (Greff et al., 2015; Jozefowicz et al.,
2015). В работе Greff et al. (2015) установлено, что вентиль забывания – ключевой
ингредиент архитектуры, а в работе Jozefowicz et al. (2015) – что прибавление смеще-
ния 1 к вентилю забывания LSTM, рекомендованное в работе Gers et al. (2000), делает
LSTM не уступающей лучшим из изученных архитектурных вариантов.
10.11. Оптимизация в контексте долгосрочных зависимостей В разделах 8.2.5 и 10.7 описана проблема исчезающих и взрывных градиентов, воз-
никающая при оптимизации РНС на большом числе временных шагов.
В работе Martens and Sutskever (2011) высказана интересная идея: вторые произ-
водные могут становиться исчезающе малыми одновременно с первыми. Алгоритмы
оптимизации второго порядка можно грубо интерпретировать как деление первой
производной на вторую (в многомерном случае – деление градиента на обратный гес-
сиан). Если вторая производная убывает примерно с такой же скоростью, как первая,
то отношение первой и второй производных будет оставаться относительно посто-
янным. К сожалению, у методов второго порядка много недостатков, в т. ч. высокая
вычислительная стоимость, необходимость брать большой мини-пакет и притяжение
к седловым точкам. В работе Martens and Sutskever (2011) получены многообещаю-
щие результаты с использованием методов второго порядка. Позже, в работе Sutskever
et al. (2013), было установлено, что аналогичные результаты можно получить и бо-
лее простыми методами, а именно методом Нестерова с тщательно подобран ными
начальными значениями. Дополнительные сведения см. в работе Sutskever (2012).
Оба этих подхода в значительной степени заменены применением СГС (даже без им-
пульса) к LSTM-сетям. Это пример постоянно встречающегося в машинном обуче-
нии явления: гораздо легче спроектировать простую для оптимизации модель, чем
изобретать более мощный алгоритм оптимизации.