Я. Гудфеллоу, И. Бенджио, А. Курвилль



Download 14,23 Mb.
Pdf ko'rish
bet434/779
Sana14.06.2022
Hajmi14,23 Mb.
#671946
TuriКнига
1   ...   430   431   432   433   434   435   436   437   ...   779
Bog'liq
Гудфеллоу Я , Бенджио И , Курвилль А Глубокое обучение

348 

 
Моделирование последовательностей: рекуррентные и рекурсивные сети
следующего целевого состояния, и вносят дополнительный нелинейный эффект в со-
отношение между прошлым и будущим состояниями.
На эту тему возможно еще много вариаций. Например, выход вентиля сброса (или 
вентиля забывания) можно разделить между несколькими скрытыми блоками. Или 
использовать произведение глобального вентиля (управляющего целой группой бло-
ков, например всем слоем) и локального вентиля (управляющего одним блоком) для 
комбинирования глобального и локального управлений. Однако в нескольких иссле-
дованиях архитектурных вариантов LSTM и GRU не найдено решения, которое было 
бы очевидно лучше обоих на широком круге задач (Greff et al., 2015; Jozefowicz et al., 
2015). В работе Greff et al. (2015) установлено, что вентиль забывания – ключевой 
ингредиент архитектуры, а в работе Jozefowicz et al. (2015) – что прибавление смеще-
ния 1 к вентилю забывания LSTM, рекомендованное в работе Gers et al. (2000), делает 
LSTM не уступающей лучшим из изученных архитектурных вариантов.
10.11. Оптимизация в контексте долгосрочных 
зависимостей
В разделах 8.2.5 и 10.7 описана проблема исчезающих и взрывных градиентов, воз-
никающая при оптимизации РНС на большом числе временных шагов.
В работе Martens and Sutskever (2011) высказана интересная идея: вторые произ-
водные могут становиться исчезающе малыми одновременно с первыми. Алгоритмы 
оптимизации второго порядка можно грубо интерпретировать как деление первой 
производной на вторую (в многомерном случае – деление градиента на обратный гес-
сиан). Если вторая производная убывает примерно с такой же скоростью, как первая, 
то отношение первой и второй производных будет оставаться относительно посто-
янным. К сожалению, у методов второго порядка много недостатков, в т. ч. высокая 
вычислительная стоимость, необходимость брать большой мини-пакет и притяжение 
к седловым точкам. В работе Martens and Sutskever (2011) получены многообещаю-
щие результаты с использованием методов второго порядка. Позже, в работе Sutskever 
et al. (2013), было установлено, что аналогичные результаты можно получить и бо-
лее простыми методами, а именно методом Нестерова с тщательно подобран ными 
начальными значениями. Дополнительные сведения см. в работе Sutskever (2012). 
Оба этих подхода в значительной степени заменены применением СГС (даже без им-
пульса) к LSTM-сетям. Это пример постоянно встречающегося в машинном обуче-
нии явления: гораздо легче спроектировать простую для оптимизации модель, чем 
изобретать более мощный алгоритм оптимизации.

Download 14,23 Mb.

Do'stlaringiz bilan baham:
1   ...   430   431   432   433   434   435   436   437   ...   779




Ma'lumotlar bazasi mualliflik huquqi bilan himoyalangan ©hozir.org 2024
ma'muriyatiga murojaat qiling

kiriting | ro'yxatdan o'tish
    Bosh sahifa
юртда тантана
Боғда битган
Бугун юртда
Эшитганлар жилманглар
Эшитмадим деманглар
битган бодомлар
Yangiariq tumani
qitish marakazi
Raqamli texnologiyalar
ilishida muhokamadan
tasdiqqa tavsiya
tavsiya etilgan
iqtisodiyot kafedrasi
steiermarkischen landesregierung
asarlaringizni yuboring
o'zingizning asarlaringizni
Iltimos faqat
faqat o'zingizning
steierm rkischen
landesregierung fachabteilung
rkischen landesregierung
hamshira loyihasi
loyihasi mavsum
faolyatining oqibatlari
asosiy adabiyotlar
fakulteti ahborot
ahborot havfsizligi
havfsizligi kafedrasi
fanidan bo’yicha
fakulteti iqtisodiyot
boshqaruv fakulteti
chiqarishda boshqaruv
ishlab chiqarishda
iqtisodiyot fakultet
multiservis tarmoqlari
fanidan asosiy
Uzbek fanidan
mavzulari potok
asosidagi multiservis
'aliyyil a'ziym
billahil 'aliyyil
illaa billahil
quvvata illaa
falah' deganida
Kompyuter savodxonligi
bo’yicha mustaqil
'alal falah'
Hayya 'alal
'alas soloh
Hayya 'alas
mavsum boyicha


yuklab olish