Я. Гудфеллоу, И. Бенджио, А. Курвилль



Download 14,23 Mb.
Pdf ko'rish
bet204/779
Sana14.06.2022
Hajmi14,23 Mb.
#671946
TuriКнига
1   ...   200   201   202   203   204   205   206   207   ...   779
Bog'liq
Гудфеллоу Я , Бенджио И , Курвилль А Глубокое обучение

θ
) = –log P(
y

x

(6.24)
= –log 
σ
((2
y
– 1)
z

(6.25)

ζ
((1 – 2
y
)
z
). 
(6.26)
При выводе использованы некоторые свойства из раздела 3.10. Записав поте-
ри в терминах функции softplus, мы видим, что насыщение наступает, только ког-
да (1 – 2
y
)
z
принимает большое по абсолютной величине отрицательное значение. 
Поэтому насыщение имеет место тогда, когда модель уже получила правильный от-
вет – когда 
y
= 1 и 
z
положительно и очень велико или когда 
y
= 0 и 
z
отрицательно 
и очень велико по абсолютной величине. Если знак 
z
не тот, то аргумент функции 
softplus, (1 – 2
y
)
z
можно упростить до |
z
|. Когда |
z
| растет при несоответствующем 
знаке 
z
, функция softplus асимптотически приближается к функции, возвращающей 
свой аргумент, |
z
|. Производная по 
z
асимптотически приближается к sign(
z
), поэтому 
в пределе – когда 
z
совершенно неправильно – функция softplus вообще не сжимает 
градиент. Это свойство полезно, потому что означает, что обучение градиентными 
методами может быстро действовать в направлении быстрого исправления ошибоч-
ного 
z
.
При использовании других функций потерь, например среднеквадратической 
ошибки, потеря может достигать насыщения одновременно с насыщением 
σ
(
z
). Сиг-
моидная функция активации асимптотически стремится к 0, когда 
z
стремится к ми-
нус бесконечности, и к 1, когда 
z
стремится к бесконечности. При таких условиях 


Обучение градиентными методами 

163
сжатие градиента слишком мало и для обучения бесполезно вне зависимости от того, 
дает модель правильный или неправильный ответ. Поэтому максимальное правдопо-
добие почти всегда является предпочтительным подходом к обучению сигмоидных 
выходных блоков.
Аналитически логарифм сигмоиды всегда определен и конечен, поскольку сиг-
моида возвращает значения из открытого интервала (0, 1), а не из всего замкнутого 
диапазона допустимых вероятностей [0, 1]. Но в программных реализациях во из-
бежание проблем с численной неустойчивостью лучше записывать отрицательное 
логарифмическое правдоподобие в виде функции от 
z
, а не от 
y


σ
(
z
). Если из-за 
потери значимости сигмоида обращается в 0, то взятие логарифма 
y

дает минус бес-
конечность.

Download 14,23 Mb.

Do'stlaringiz bilan baham:
1   ...   200   201   202   203   204   205   206   207   ...   779




Ma'lumotlar bazasi mualliflik huquqi bilan himoyalangan ©hozir.org 2024
ma'muriyatiga murojaat qiling

kiriting | ro'yxatdan o'tish
    Bosh sahifa
юртда тантана
Боғда битган
Бугун юртда
Эшитганлар жилманглар
Эшитмадим деманглар
битган бодомлар
Yangiariq tumani
qitish marakazi
Raqamli texnologiyalar
ilishida muhokamadan
tasdiqqa tavsiya
tavsiya etilgan
iqtisodiyot kafedrasi
steiermarkischen landesregierung
asarlaringizni yuboring
o'zingizning asarlaringizni
Iltimos faqat
faqat o'zingizning
steierm rkischen
landesregierung fachabteilung
rkischen landesregierung
hamshira loyihasi
loyihasi mavsum
faolyatining oqibatlari
asosiy adabiyotlar
fakulteti ahborot
ahborot havfsizligi
havfsizligi kafedrasi
fanidan bo’yicha
fakulteti iqtisodiyot
boshqaruv fakulteti
chiqarishda boshqaruv
ishlab chiqarishda
iqtisodiyot fakultet
multiservis tarmoqlari
fanidan asosiy
Uzbek fanidan
mavzulari potok
asosidagi multiservis
'aliyyil a'ziym
billahil 'aliyyil
illaa billahil
quvvata illaa
falah' deganida
Kompyuter savodxonligi
bo’yicha mustaqil
'alal falah'
Hayya 'alal
'alas soloh
Hayya 'alas
mavsum boyicha


yuklab olish