Я. Гудфеллоу, И. Бенджио, А. Курвилль



Download 14,23 Mb.
Pdf ko'rish
bet326/779
Sana14.06.2022
Hajmi14,23 Mb.
#671946
TuriКнига
1   ...   322   323   324   325   326   327   328   329   ...   779
Bog'liq
Гудфеллоу Я , Бенджио И , Курвилль А Глубокое обучение

усиления
g
, который учитывает нелинейности в каждом слое. Авторы при-
водят конкретные значения масштабного коэффициента для нелинейных функций 
активации разных типов. Обоснованием такой схемы инициализации также служит 
модель глубокой сети как последовательности умножений матриц без нелинейно-
стей. При такой модели схема гарантирует, что общее число итераций обучения, не-
обходимое для достижения сходимости, не зависит от глубины.
Увеличение масштабного коэффициента 
g
переводит сеть в режим, когда норма ак-
тивации возрастает при прямом распространении, а норма градиента – при обратном. 
В работе Sussillo (2014) показано, что правильного выбора коэффициента усиления 
достаточно для обучения глубоких сетей с 1000 уровней без применения ортогональ-
ной инициализации. Главная идея этого подхода состоит в том, что в сетях прямо-
го распространения активация и градиент могут возрастать или убывать на каждом 
шаге прямого или обратного распространения, как при случайном блуждании. Объ-
ясняется это тем, что в сетях прямого распространения в каждом слое используется 
своя матрица весов. Если настроить это случайное блуждание, так чтобы норма со-
хранялась, то сеть прямого распространения сможет в большинстве случаев избежать 
проблемы исчезающих и взрывных градиентов, которая возникает, когда на каждом 
шаге используется одна и та же матрица (см. раздел 8.2.5).
К сожалению, оптимальные критерии для начальных весов зачастую не приводят 
к оптимальному качеству. Тому может быть три причины. Во-первых, неподходящий 
критерий – возможно, он не способствует сохранению нормы сигнала во всей сети. 
Во-вторых, свойства, справедливые в момент инициализации, могут нарушаться 
после начала обучения. В-третьих, критерий может ускорять оптимизацию, но не-
преднамеренно увеличивать ошибку обобщения. На практике масштаб весов обычно 
следует рассматривать как гиперпараметр, оптимальное значение которого близко 
к теоретически предсказанному, но не совпадает с ним.
Недостаток правил масштабирования, при которых все начальные веса имеют оди-
наковое стандартное отклонение, например 1/

_
m
, состоит в том, что каждый отдель-
ный вес становится очень малым, когда число слоев растет. В работе Martens (2010) 
предложена альтернативная схема, названная 

Download 14,23 Mb.

Do'stlaringiz bilan baham:
1   ...   322   323   324   325   326   327   328   329   ...   779




Ma'lumotlar bazasi mualliflik huquqi bilan himoyalangan ©hozir.org 2024
ma'muriyatiga murojaat qiling

kiriting | ro'yxatdan o'tish
    Bosh sahifa
юртда тантана
Боғда битган
Бугун юртда
Эшитганлар жилманглар
Эшитмадим деманглар
битган бодомлар
Yangiariq tumani
qitish marakazi
Raqamli texnologiyalar
ilishida muhokamadan
tasdiqqa tavsiya
tavsiya etilgan
iqtisodiyot kafedrasi
steiermarkischen landesregierung
asarlaringizni yuboring
o'zingizning asarlaringizni
Iltimos faqat
faqat o'zingizning
steierm rkischen
landesregierung fachabteilung
rkischen landesregierung
hamshira loyihasi
loyihasi mavsum
faolyatining oqibatlari
asosiy adabiyotlar
fakulteti ahborot
ahborot havfsizligi
havfsizligi kafedrasi
fanidan bo’yicha
fakulteti iqtisodiyot
boshqaruv fakulteti
chiqarishda boshqaruv
ishlab chiqarishda
iqtisodiyot fakultet
multiservis tarmoqlari
fanidan asosiy
Uzbek fanidan
mavzulari potok
asosidagi multiservis
'aliyyil a'ziym
billahil 'aliyyil
illaa billahil
quvvata illaa
falah' deganida
Kompyuter savodxonligi
bo’yicha mustaqil
'alal falah'
Hayya 'alal
'alas soloh
Hayya 'alas
mavsum boyicha


yuklab olish