Я. Гудфеллоу, И. Бенджио, А. Курвилль


катаст- рофической забывчивости



Download 14,23 Mb.
Pdf ko'rish
bet218/779
Sana14.06.2022
Hajmi14,23 Mb.
#671946
TuriКнига
1   ...   214   215   216   217   218   219   220   221   ...   779
Bog'liq
Гудфеллоу Я , Бенджио И , Курвилль А Глубокое обучение

катаст-
рофической забывчивости
, когда нейронная сеть забывает, как решать задачи, кото-
рым ее обучили в прошлом (Goodfellow et al., 2014a).
Блоки линейной ректификации и все их обобщения основаны на принципе, со-
гласно которому модель проще обучить, если ее поведение близко к линейному. 
Тот же общий принцип использования линейного поведения для упрощения опти-
мизации применим не только к глубоким линейным сетям. Рекуррентные сети мо-
гут обучаться на последовательностях и порождать последовательность состояний 
и выходов. В ходе их обучения необходимо передавать информацию от одного шага 
к другому, что гораздо проще, когда производятся линейные вычисления (некоторые 
производные по направлению близки к 1). В одной из самых лучших архитектур ре-
куррентных сетей, LSTM, информация распространяется во времени путем сумми-
рования – особенно простого вида линейной активации. Мы вернемся к этой теме 
в разделе 10.10.
6.3.2. Логистическая сигмоида и гиперболический тангенс
Блоки линейной ректификации стали использоваться сравнительно недавно, а рань-
ше в большинстве нейронных сетей в роли функции активации применялась логис-
тическая сигмоида


172 

 
Глубокие сети прямого распространения 
g
(
z
) = 
σ
(
z

(6.38)
или гиперболический тангенс
g
(
z
) = tanh(
z
). 
(6.39)
Эти функции активации тесно связаны: tanh(
z
) = 2
σ
(2
z
) – 1.
Мы уже видели сигмоидальные блоки в качестве выходных, предсказывающих ве-
роятность того, что бинарная величина равна 1. В отличие от кусочно-линейных, сиг-
моидальные блоки близки к асимптоте в большей части своей области определения – 
приближаются к высокому значению, когда 
z
стремится к бесконечности, и к низкому, 
когда 
z
стремится к минус бесконечности. Высокой чувствительностью они облада-
ют только в окрестности нуля. Из-за насыщения сигмоидальных блоков градиентное 
обучение сильно затруднено. Поэтому использование их в качестве скрытых блоков 
в сетях прямого распространения ныне не рекомендуется. Применение же в качестве 
выходных блоков совместимо с обучением градиентными методами, если функция 
стоимости компенсируется насыщением сигмоиды в выходном слое.
Если использовать сигмоидальную функцию активации необходимо, то лучше 
взять не логистическую сигмоиду, а гиперболический тангенс. Он ближе к тождест-
венной функции в том смысле, что tanh(0) = 0, тогда как 
σ
(0) = 1/2. Поскольку tanh 
походит на тождественную функцию в окрестности нуля, обучение глубокой ней-
ронной сети 
y



Download 14,23 Mb.

Do'stlaringiz bilan baham:
1   ...   214   215   216   217   218   219   220   221   ...   779




Ma'lumotlar bazasi mualliflik huquqi bilan himoyalangan ©hozir.org 2024
ma'muriyatiga murojaat qiling

kiriting | ro'yxatdan o'tish
    Bosh sahifa
юртда тантана
Боғда битган
Бугун юртда
Эшитганлар жилманглар
Эшитмадим деманглар
битган бодомлар
Yangiariq tumani
qitish marakazi
Raqamli texnologiyalar
ilishida muhokamadan
tasdiqqa tavsiya
tavsiya etilgan
iqtisodiyot kafedrasi
steiermarkischen landesregierung
asarlaringizni yuboring
o'zingizning asarlaringizni
Iltimos faqat
faqat o'zingizning
steierm rkischen
landesregierung fachabteilung
rkischen landesregierung
hamshira loyihasi
loyihasi mavsum
faolyatining oqibatlari
asosiy adabiyotlar
fakulteti ahborot
ahborot havfsizligi
havfsizligi kafedrasi
fanidan bo’yicha
fakulteti iqtisodiyot
boshqaruv fakulteti
chiqarishda boshqaruv
ishlab chiqarishda
iqtisodiyot fakultet
multiservis tarmoqlari
fanidan asosiy
Uzbek fanidan
mavzulari potok
asosidagi multiservis
'aliyyil a'ziym
billahil 'aliyyil
illaa billahil
quvvata illaa
falah' deganida
Kompyuter savodxonligi
bo’yicha mustaqil
'alal falah'
Hayya 'alal
'alas soloh
Hayya 'alas
mavsum boyicha


yuklab olish