Я. Гудфеллоу, И. Бенджио, А. Курвилль



Download 14,23 Mb.
Pdf ko'rish
bet309/779
Sana14.06.2022
Hajmi14,23 Mb.
#671946
TuriКнига
1   ...   305   306   307   308   309   310   311   312   ...   779
Bog'liq
Гудфеллоу Я , Бенджио И , Курвилль А Глубокое обучение

бесседловой метод Нью-
тона
(saddle-free Newton method) для оптимизации второго порядка и показано, что 
он значительно улучшает традиционный вариант. Методы второго порядка все еще 
с трудом масштабируются на большие нейронные сети, но если этот бесседловой ме-
тод удастся масштабировать, то он сулит интересные перспективы.
Помимо минимумов и седловых точек, существуют и другие виды точек с нулевым 
градиентом. С точки зрения оптимизации, максимумы очень похожи на седловые 
точки – многие алгоритмы не притягиваются к ним, но немодифицированный метод 
Ньютона не из их числа. Для многих классов случайных функций в многомерном 
пространстве максимумы – такая же экспоненциальная редкость, как и минимумы.


248 

 
Оптимизация в обучении глубоких моделей
Проекция 2 
θ
Проекция 1 
θ
J
(
θ
)
Рис. 8.2 

Визуализация функции стоимости нейронной сети. Похожие 
визуализации характерны для нейронных сетей прямого распространения, 
а также сверточных и рекуррентных, применяемых в реальных задачах рас-
познавания объектов и обработки естественных языков. Как ни странно, 
на этих визуализациях обычно не встретишь много бросающихся в глаза 
препятствий. До триумфа алгоритма стохастического градиентного спуска 
в применении к обучению очень больших моделей, датируемого пример-
но 2012 годом, считалось, что поверхности функций стоимости нейронных 
сетей обладают куда более невыпуклой структурой, чем видно на этих про-
екциях. Основное присутствующее здесь препятствие – седловая точка вы-
сокой стоимости вблизи начальных значений параметров, но, как показы-
вает синяя линия, траектория обучения СГС быстро покидает эту седловую 
точку. Основное время затрачено на пересечение сравнительно плоской 
долины функции стоимости, наверное, вследствие высокого шума при вы-
числении градиента, плохой обусловленности гессиана в этой области или 
просто из-за необходимости обойти высокую «гору», видную на рисунке, 
по огибающей дуге. Изображение взято из работы Goodfellow et al. (2015) 
с разрешения авторов
Могут также существовать широкие плоские области с постоянным значением. 
В этих областях равны нулю и градиент, и гессиан. Такие вырожденные участки – 
серь езная проблема для всех алгоритмов численной оптимизации. В выпуклой задаче 
широкая плоская область должна целиком состоять из глобальных минимумов, но 
в общем случае ей могут соответствовать и большие значения целевой функции.

Download 14,23 Mb.

Do'stlaringiz bilan baham:
1   ...   305   306   307   308   309   310   311   312   ...   779




Ma'lumotlar bazasi mualliflik huquqi bilan himoyalangan ©hozir.org 2024
ma'muriyatiga murojaat qiling

kiriting | ro'yxatdan o'tish
    Bosh sahifa
юртда тантана
Боғда битган
Бугун юртда
Эшитганлар жилманглар
Эшитмадим деманглар
битган бодомлар
Yangiariq tumani
qitish marakazi
Raqamli texnologiyalar
ilishida muhokamadan
tasdiqqa tavsiya
tavsiya etilgan
iqtisodiyot kafedrasi
steiermarkischen landesregierung
asarlaringizni yuboring
o'zingizning asarlaringizni
Iltimos faqat
faqat o'zingizning
steierm rkischen
landesregierung fachabteilung
rkischen landesregierung
hamshira loyihasi
loyihasi mavsum
faolyatining oqibatlari
asosiy adabiyotlar
fakulteti ahborot
ahborot havfsizligi
havfsizligi kafedrasi
fanidan bo’yicha
fakulteti iqtisodiyot
boshqaruv fakulteti
chiqarishda boshqaruv
ishlab chiqarishda
iqtisodiyot fakultet
multiservis tarmoqlari
fanidan asosiy
Uzbek fanidan
mavzulari potok
asosidagi multiservis
'aliyyil a'ziym
billahil 'aliyyil
illaa billahil
quvvata illaa
falah' deganida
Kompyuter savodxonligi
bo’yicha mustaqil
'alal falah'
Hayya 'alal
'alas soloh
Hayya 'alas
mavsum boyicha


yuklab olish