Я. Гудфеллоу, И. Бенджио, А. Курвилль



Download 14,23 Mb.
Pdf ko'rish
bet308/779
Sana14.06.2022
Hajmi14,23 Mb.
#671946
TuriКнига
1   ...   304   305   306   307   308   309   310   311   ...   779
Bog'liq
Гудфеллоу Я , Бенджио И , Курвилль А Глубокое обучение

246 

 
Оптимизация в обучении глубоких моделей
сетей. Но сегодня так не кажется. В этой области ведутся активные исследования, 
но специалисты склоняются к мнению, что для достаточно больших нейронных се-
тей в большинстве локальных минимумов значение функции стоимости мало и что 
важно не столько найти глобальный минимум, сколько какую-нибудь точку в прост-
ранстве параметров, в которой стоимость низкая, пусть и не минимальная (Saxe et al., 
2013; Dauphin et al., 2014; Goodfellow et al., 2015; Choromanska et al., 2014).
Многие специалисты-практики приписывают почти все трудности, связанные 
с оптимизацией нейронных сетей, локальным минимумам. Мы призываем их тща-
тельнее изучать конкретные задачи. Чтобы исключить локальные минимумы как 
возможную причину проблем, имеет смысл построить график зависимости нормы 
градиента от времени. Если норма градиента не убывает почти до нуля, то проблема 
не в локальных минимумах и вообще не в критических точках. В пространствах высо-
кой размерности установить с полной определенностью, что корень зла – локальные 
минимумы, бывает очень трудно. Малые градиенты характерны для многих особен-
ностей строения, помимо локальных минимумов.
8.2.3. Плато, седловые точки и другие плоские участки
Для многих невыпуклых функций в многомерных пространствах локальные мини-
мумы (и максимумы) встречаются гораздо реже других точек с нулевым градиентом: 
седловых точек. В одних точках в окрестности седловой стоимость выше, чем в сед-
ловой точке, в других – ниже. В седловой точке матрица Гессе имеет как положитель-
ные, так и отрицательные собственные значения. В точках, лежащих вдоль собствен-
ных векторов с положительными собственными значениями, стоимость выше, чем 
в седловой точке, а в точках, лежащих вдоль собственных векторов с отрицательны-
ми собственными значениями, – ниже. Можно считать, что седловая точка является 
локальным минимумом в одном сечении графика функции стоимости и локальным 
максимумом – в другом. Это иллюстрирует рис. 4.5.
Многие классы случайных функций демонстрируют следующее поведение: в прост-
ранствах низкой размерности локальные минимумы встречаются часто, а в простран-
ствах большей размерности они редкость, зато часто встречаются седловые точки. Для 
функции 
f


n


такого типа ожидаемое отношение числа седловых точек к числу 
локальных максимумов растет экспоненциально с ростом 
n
. Чтобы интуитивно по-
нять причины такого поведения, заметим, что в локальном минимуме все собственные 
значения матрицы Гессе положительны. В седловой точке у матрицы Гессе есть как 
положительные, так и отрицательные собственные значения. Представьте себе, что 
знак собственного значения определяется подбрасыванием монеты. В одномерном 
случае для получения локального минимума достаточно, чтобы один раз выпал орел. 
А в 
n
-мерном случае вероятность, что 
n
раз подряд выпадет орел, экспоненциально 
убывает. Обзор теоретических работ на эту тему см. в Dauphin et al. (2014).
У многих случайных функций есть удивительное свойство: вероятность положи-
тельности собственных значений матрицы Гессе возрастает при приближении к об-
ластям низкой стоимости. В нашей аналогии с подбрасыванием монеты это означает, 
что вероятность 
n
раз подряд выкинуть орла выше, если мы находимся в критической 
точке с низкой стоимостью. Это также означает, что локальные минимумы с низкой 
стоимостью гораздо вероятнее, чем с высокой. Критические точки с высокой стои-
мостью с куда большей вероятностью являются седловыми точками. А критические 
точки с очень высокой стоимостью, скорее всего, являются локальными максимумами.


Проблемы оптимизации нейронных сетей 

247
Это верно для многих классов случайных функций. А для нейронных сетей? В ра-
боте Baldi and Hornik (1989) теоретически доказано, что мелкие автокодировщики 
(описанные в главе 14 сети прямого распространения, обученные копировать вход 
в выход) без нелинейностей имеют глобальные минимумы и седловые точки, но не 
имеют локальных минимумов со стоимостью выше, чем в глобальном минимуме. Не 
приводя доказательства, они заметили, что эти результаты обобщаются и на более 
глубокие сети без нелинейностей. Выходом такой сети является линейная функция 
от входа, но они полезны в качестве модели нелинейных нейронных сетей, поскольку 
функция потерь такой сети – невыпуклая функция своих параметров. Подобные сети, 
по существу, представляют собой просто композицию нескольких матриц. В работе 
Saxe et al. (2013) приведены точные решения для полной динамики обучения такой 
сети и показано, что обучение таких моделей улавливает многие качественные осо-
бенности, наблюдаемые при обучении глубоких моделей с нелинейными функциями 
активации. В работе Dauphin et al. (2014) экспериментально показано, что у реальных 
нейронных сетей также имеются функции потерь, содержащие очень много седловых 
точек с высокой стоимостью. В работе Choromanska et al. (2014) приведены допол-
нительные теоретические аргументы, доказывающие, что это справедливо еще для 
одного класса многомерных случайных функций, родственного нейронным сетям.
Каковы последствия изобилия седловых точек для алгоритмов обучения? В слу-
чае оптимизации первого порядка, когда используется только информация о гради-
енте, ситуация неясна. Градиент часто оказывается очень мал в окрестности седловой 
точки. С другой стороны, есть эмпирические свидетельства в пользу того, что метод 
градиентного спуска во многих случаях способен выйти из седловой точки. В работе 
Goodfellow et al. (2015) наглядно показано несколько траекторий обучения современ-
ных нейронных сетей, один из таких примеров приведен на рис. 8.2. На этих рисунках 
видно уплощение функции стоимости вблизи выраженной седловой точки, где все 
веса равны нулю, но видно и то, что траектория градиентного спуска быстро поки-
дает этот участок. В той же работе высказывается предположение, что можно анали-
тически доказать, что седловая точка отталкивает, а не притягивает траекторию не-
прерывного по времени градиентного спуска, но что ситуация может оказаться иной 
в более реалистичных случаях применения метода градиентного спуска.
Для метода Ньютона седловые точки представляют очевидную проблему. Идея 
алгоритма градиентного спуска – «спуск с горы», а не явный поиск критических 
точек. С другой стороны, метод Ньютона специально предназначен для поиска то-
чек с нулевым градиентом. Без надлежащей модификации он вполне может найти 
седловую точку. Изобилие седловых точек в многомерных пространствах объясняет, 
почему методы второго порядка не смогли заменить градиентный спуск в обучении 
нейронных сетей. В работе Dauphin et al. (2014) описан 

Download 14,23 Mb.

Do'stlaringiz bilan baham:
1   ...   304   305   306   307   308   309   310   311   ...   779




Ma'lumotlar bazasi mualliflik huquqi bilan himoyalangan ©hozir.org 2024
ma'muriyatiga murojaat qiling

kiriting | ro'yxatdan o'tish
    Bosh sahifa
юртда тантана
Боғда битган
Бугун юртда
Эшитганлар жилманглар
Эшитмадим деманглар
битган бодомлар
Yangiariq tumani
qitish marakazi
Raqamli texnologiyalar
ilishida muhokamadan
tasdiqqa tavsiya
tavsiya etilgan
iqtisodiyot kafedrasi
steiermarkischen landesregierung
asarlaringizni yuboring
o'zingizning asarlaringizni
Iltimos faqat
faqat o'zingizning
steierm rkischen
landesregierung fachabteilung
rkischen landesregierung
hamshira loyihasi
loyihasi mavsum
faolyatining oqibatlari
asosiy adabiyotlar
fakulteti ahborot
ahborot havfsizligi
havfsizligi kafedrasi
fanidan bo’yicha
fakulteti iqtisodiyot
boshqaruv fakulteti
chiqarishda boshqaruv
ishlab chiqarishda
iqtisodiyot fakultet
multiservis tarmoqlari
fanidan asosiy
Uzbek fanidan
mavzulari potok
asosidagi multiservis
'aliyyil a'ziym
billahil 'aliyyil
illaa billahil
quvvata illaa
falah' deganida
Kompyuter savodxonligi
bo’yicha mustaqil
'alal falah'
Hayya 'alal
'alas soloh
Hayya 'alas
mavsum boyicha


yuklab olish