Я. Гудфеллоу, И. Бенджио, А. Курвилль



Download 14,23 Mb.
Pdf ko'rish
bet206/779
Sana14.06.2022
Hajmi14,23 Mb.
#671946
TuriКнига
1   ...   202   203   204   205   206   207   208   209   ...   779
Bog'liq
Гудфеллоу Я , Бенджио И , Курвилль А Глубокое обучение

z

W

h

b
,
 
(6.28)
где 
z
i
= log
P
~(
y

i

x
). Функция softmax может затем потенцировать и нормировать 
z
для получения желаемого 
y

. Формально функция softmax определяется следующим 
образом:
 
(6.29)
Как и в случае логистической сигмоиды, использование функции exp дает хоро-
шие результаты при обучении softmax с целью порождения выходного значения 
y


164 

 
Глубокие сети прямого распространения 
с применением логарифмического правдоподобия. В этом случае мы хотим максими-
зировать log 
P
(y = 
i

z
) = log softmax(
z
)
i
. Определение softmax через exp естественно, 
потому что логарифм, входящий в логарифмическое правдоподобие, компенсирует 
потенцирование в softmax:
 
(6.30)
Первый член в выражении (6.30) показывает, что вход 
z
i
дает прямой вклад в функ-
цию стоимости. Поскольку этот член не испытывает насыщения, то обучение всегда 
может продолжиться, даже если вклад 
z
i
во второй член становится очень мал. При 
максимизации логарифмического правдоподобия первый член поощряет увеличение 
z
i
, а второй – уменьшение всех элементов 
z
. Чтобы составить интуитивное представ-
ление о втором члене log 
Σ

exp(
z
j
), заметим, что его можно грубо аппроксимировать 
величиной max
j
z
j
. В основе такой аппроксимации лежит то соображение, что exp(
z
k

несущественно для любого 
z
k
, значительно меньшего, чем max
j
z
j
. Отсюда следует, что 
отрицательное логарифмическое правдоподобие в роли функции стоимости всегда 
сильнее штрафует самое активное неправильное предсказание. Если правильный от-
вет уже дает самого большого вклада в softmax, то члены –
z
i
и log 
Σ

exp(
z
j


max
j
z
j

z
i
приблизительно взаимно уничтожаются. Такой пример, следовательно, даст малый 
вклад в общую стоимость обучения, в которой будут преобладать другие примеры, 
пока еще классифицированные неправильно.
До сих пор мы обсуждали только один пример. В целом нерегуляризованное мак-
симальное правдоподобие побуждает модель обучать параметры, при которых soft-
max предсказывает долю наблюдений каждого исхода в обучающем наборе:
 
(6.31)
Поскольку максимальное правдоподобие – состоятельная оценка, это гаранти-
рованно произойдет при условии, что модельное семейство способно представить 
обучаю щее распределение. На практике из-за ограниченной емкости и несовершен-
ной оптимизации модель способна только аппроксимировать эти доли.
Многие целевые функции, отличные от логарифмического правдоподобия, не так 
хорошо сочетаются с функцией softmax. Конкретно, целевые функции, в которых 
не используется логарифм для компенсации функции exp, входящей в softmax, не 
обуча ются, когда аргумент exp становится отрицательным и большим по абсолютной 
величине, что приводит к обнулению градиента. В частности, среднеквадратическая 
ошибка – плохая функция потерь для блоков softmax, она не всегда побуждает модель 
изменить свой выход, даже если модель весьма уверенно дает неправильные пред-
сказания (Bridle, 1990). Чтобы понять, в чем тут дело, необходимо внимательно рас-
смотреть саму функцию softmax.
Как и сигмоида, функция активации softmax склонна к насыщению. У сигмоиды 
всего один выход, и она насыщается, когда абсолютная величина аргумента очень 
велика. У softmax выходных значений несколько. Они насыщаются, когда велика аб-
солютная величина разностей между входными значениями. Когда softmax насыща-
ется, многие основанные на ней функции стоимости также насыщаются, если только 
они не способны обратить насыщающуюся функцию активации.


Обучение градиентными методами 

165
Чтобы понять, как softmax реагирует на разность между входными значениями, за-
метим, что выход softmax инвариантен относительно прибавления одного и того же 
скаляра ко всем входам:
softmax(

Download 14,23 Mb.

Do'stlaringiz bilan baham:
1   ...   202   203   204   205   206   207   208   209   ...   779




Ma'lumotlar bazasi mualliflik huquqi bilan himoyalangan ©hozir.org 2024
ma'muriyatiga murojaat qiling

kiriting | ro'yxatdan o'tish
    Bosh sahifa
юртда тантана
Боғда битган
Бугун юртда
Эшитганлар жилманглар
Эшитмадим деманглар
битган бодомлар
Yangiariq tumani
qitish marakazi
Raqamli texnologiyalar
ilishida muhokamadan
tasdiqqa tavsiya
tavsiya etilgan
iqtisodiyot kafedrasi
steiermarkischen landesregierung
asarlaringizni yuboring
o'zingizning asarlaringizni
Iltimos faqat
faqat o'zingizning
steierm rkischen
landesregierung fachabteilung
rkischen landesregierung
hamshira loyihasi
loyihasi mavsum
faolyatining oqibatlari
asosiy adabiyotlar
fakulteti ahborot
ahborot havfsizligi
havfsizligi kafedrasi
fanidan bo’yicha
fakulteti iqtisodiyot
boshqaruv fakulteti
chiqarishda boshqaruv
ishlab chiqarishda
iqtisodiyot fakultet
multiservis tarmoqlari
fanidan asosiy
Uzbek fanidan
mavzulari potok
asosidagi multiservis
'aliyyil a'ziym
billahil 'aliyyil
illaa billahil
quvvata illaa
falah' deganida
Kompyuter savodxonligi
bo’yicha mustaqil
'alal falah'
Hayya 'alal
'alas soloh
Hayya 'alas
mavsum boyicha


yuklab olish