Я. Гудфеллоу, И. Бенджио, А. Курвилль


θ ), а затем выполнял об- ратное проецирование  θ



Download 14,23 Mb.
Pdf ko'rish
bet259/779
Sana14.06.2022
Hajmi14,23 Mb.
#671946
TuriКнига
1   ...   255   256   257   258   259   260   261   262   ...   779
Bog'liq
Гудфеллоу Я , Бенджио И , Курвилль А Глубокое обучение

θ
), а затем выполнял об-
ратное проецирование 
θ
в ближайшую точку, для которой 
Ω
(
θ
) < 
k
. Это бывает полез-
но, если мы заранее знаем, какое значение 
k
приемлемо, и не хотим тратить времени 
на поиск значения 
α
, соответствующего этому 
k
.
Еще одна причина использовать явные ограничения и обратное проецирование, 
а не косвенные ограничения в виде штрафов, состоит в том, что из-за штрафа про-
цедура невыпуклой оптимизации может застрять в локальном минимуме, соответ-
ствующем малому 
θ
. При обучении нейронных сетей это обычно проявляется в виде 
сети, обучившейся с несколькими «мертвыми блоками». Так называются блоки, ко-
торые мало что вносят в поведение обученной сетью функции, потому что веса всех 
входных или выходных сигналов очень малы. При обучении со штрафом на норму 
весов такие конфигурации могут оказаться локально оптимальными, даже если воз-
можно значительно уменьшить 
J
, сделав веса больше. Явные ограничения, реализо-
ванные с помощью обратного проецирования, в таких случаях могут работать гораздо 
лучше, потому что не поощряют приближения весов к началу координат. Такие явные 
ограничения вступают в силу, только когда веса становятся большими и грозят выйти 
за пределы области ограничений.
Наконец, явные ограничения на основе обратного проецирования могут быть по-
лезны, потому что привносят устойчивость в процедуру оптимизации. Если скорость 
обучения высока, то есть риск попасть в петлю с положительной обратной связью, 
когда большие веса приводят к большим градиентам, а это, в свою очередь, приводит 
к большому обновлению весов. Если такие обновления стабильно увеличивают веса, 
то 
θ
быстро отдаляется от начала координат, пока не наступит численное перепол-
нение. Явные ограничения с обратным проецированием не дают таким петлям вы-
зывать неограниченный рост весов. В работе Hinton et al. (2012c) рекомендуется ис-
пользовать ограничения в сочетании с высокой скоростью обучения, чтобы быстрее 
исследовать пространство параметров без потери устойчивости.
В частности, рекомендуется стратегия, предложенная в работе Srebro and Shraib-
man (2005): ограничивать норму каждого столбца матрицы весов слоя нейронной 
сети, а не норму Фробениуса всей матрицы. Ограничение нормы каждого столбца 
препятствует назначению высокого веса отдельным скрытым блокам. Если преоб-
разовать это ограничение в штраф в функции Лагранжа, то он был бы похож на сни-
жение весов по норме 
L
2
, только у веса каждого скрытого блока был бы отдельный 
множитель ККТ. Все эти множители по отдельности подвергались бы динамическо-
му обновлению, так чтобы каждый скрытый блок подчинялся своему ограничению. 
На практике ограничения на нормы столбцов всегда реализуются с помощью явных 
ограничений с обратным проецированием.



Download 14,23 Mb.

Do'stlaringiz bilan baham:
1   ...   255   256   257   258   259   260   261   262   ...   779




Ma'lumotlar bazasi mualliflik huquqi bilan himoyalangan ©hozir.org 2024
ma'muriyatiga murojaat qiling

kiriting | ro'yxatdan o'tish
    Bosh sahifa
юртда тантана
Боғда битган
Бугун юртда
Эшитганлар жилманглар
Эшитмадим деманглар
битган бодомлар
Yangiariq tumani
qitish marakazi
Raqamli texnologiyalar
ilishida muhokamadan
tasdiqqa tavsiya
tavsiya etilgan
iqtisodiyot kafedrasi
steiermarkischen landesregierung
asarlaringizni yuboring
o'zingizning asarlaringizni
Iltimos faqat
faqat o'zingizning
steierm rkischen
landesregierung fachabteilung
rkischen landesregierung
hamshira loyihasi
loyihasi mavsum
faolyatining oqibatlari
asosiy adabiyotlar
fakulteti ahborot
ahborot havfsizligi
havfsizligi kafedrasi
fanidan bo’yicha
fakulteti iqtisodiyot
boshqaruv fakulteti
chiqarishda boshqaruv
ishlab chiqarishda
iqtisodiyot fakultet
multiservis tarmoqlari
fanidan asosiy
Uzbek fanidan
mavzulari potok
asosidagi multiservis
'aliyyil a'ziym
billahil 'aliyyil
illaa billahil
quvvata illaa
falah' deganida
Kompyuter savodxonligi
bo’yicha mustaqil
'alal falah'
Hayya 'alal
'alas soloh
Hayya 'alas
mavsum boyicha


yuklab olish