Я. Гудфеллоу, И. Бенджио, А. Курвилль


Глубокие рекуррентные сети



Download 14,23 Mb.
Pdf ko'rish
bet419/779
Sana14.06.2022
Hajmi14,23 Mb.
#671946
TuriКнига
1   ...   415   416   417   418   419   420   421   422   ...   779
Bog'liq
Гудфеллоу Я , Бенджио И , Курвилль А Глубокое обучение

10.5. Глубокие рекуррентные сети
Вычисления в большинстве РНС можно разложить на три блока параметров и ассо-
циированные с ними преобразования:
1) из входа в скрытое состояние;
2) из предыдущего скрытого состояния в следующее;
3) из скрытого состояния в выход.
В архитектуре РНС, показанной на рис. 10.3, с каждым из этих трех блоков ассоции-
рована одна матрица весов. Иными словами, при развертке сети каждый блок будет со-
ответствовать мелкому преобразованию. Под «мелким» мы понимаем преобразование, 
которое было бы представлено одним слоем в глубоком МСП. Как правило, это обучен-
ное аффинное преобразование, за которым следует фиксированная нелинейность.
Даст ли какой-нибудь выигрыш наделение этих операций глубиной? Эксперимен-
ты (Graves et al., 2013; Pascanu et al., 2014a) уверенно свидетельствуют в пользу такого 
предположения. Экспериментальные факты согласуются с идеей о том, что для вы-
полнения требуемых отображений нужна достаточная глубина. См. также более ран-
ние работы по глубоким РНС Schmidhuber (1992), El Hihi and Bengio (1996) и Jaeger 
(2007a).
В работе Graves et al. (2013) впервые продемонстрировано значительное преиму-
щество от разложения состояния РНС в несколько слоев, как на рис. 10.13a. Мож-
но считать, что нижние слои в иерархии, показанной на рис. 10.13a, играют роль 
в преобразовании входных данных в представление, более подходящее для верхних 
уровней скрытого состояния. В работе Pascanu et al. (2014a) сделан следующий шаг: 
предложено включать отдельный МСП (возможно, глубокий) для каждого из трех 
перечисленных выше блоков, как показано на рис. 10.13b. По соображениям репре-
зентативной емкости, кажется естественным наделить каждый из трех шагов доста-
точно большой емкостью, но если для этого увеличивать глубину, то обучение может 
осложниться из-за трудностей оптимизации. В общем случае оптимизировать проще 
более мелкие архитектуры, а увеличение глубины на рис. 10.13b приводит к удлине-
нию кратчайшего пути от переменной на шаге 
t
к переменной на шаге 
t
+ 1. Например, 
если для перехода состояний используется МСП с одним скрытым слоем, то длина 
кратчайшего пути между переменными на любых двух временных шагах удваивает-
ся, по сравнению с обычной РНС на рис. 10.3. Однако в работе Pascanu et al. (2014a) 
отмечено, что эту проблему можно сгладить путем добавления прямых связей внутри 
скрытого слоя, как показано на рис. 10.13c.


Рекурсивные нейронные сети 


Download 14,23 Mb.

Do'stlaringiz bilan baham:
1   ...   415   416   417   418   419   420   421   422   ...   779




Ma'lumotlar bazasi mualliflik huquqi bilan himoyalangan ©hozir.org 2024
ma'muriyatiga murojaat qiling

kiriting | ro'yxatdan o'tish
    Bosh sahifa
юртда тантана
Боғда битган
Бугун юртда
Эшитганлар жилманглар
Эшитмадим деманглар
битган бодомлар
Yangiariq tumani
qitish marakazi
Raqamli texnologiyalar
ilishida muhokamadan
tasdiqqa tavsiya
tavsiya etilgan
iqtisodiyot kafedrasi
steiermarkischen landesregierung
asarlaringizni yuboring
o'zingizning asarlaringizni
Iltimos faqat
faqat o'zingizning
steierm rkischen
landesregierung fachabteilung
rkischen landesregierung
hamshira loyihasi
loyihasi mavsum
faolyatining oqibatlari
asosiy adabiyotlar
fakulteti ahborot
ahborot havfsizligi
havfsizligi kafedrasi
fanidan bo’yicha
fakulteti iqtisodiyot
boshqaruv fakulteti
chiqarishda boshqaruv
ishlab chiqarishda
iqtisodiyot fakultet
multiservis tarmoqlari
fanidan asosiy
Uzbek fanidan
mavzulari potok
asosidagi multiservis
'aliyyil a'ziym
billahil 'aliyyil
illaa billahil
quvvata illaa
falah' deganida
Kompyuter savodxonligi
bo’yicha mustaqil
'alal falah'
Hayya 'alal
'alas soloh
Hayya 'alas
mavsum boyicha


yuklab olish