Я. Гудфеллоу, И. Бенджио, А. Курвилль


BFGS в ограниченной памяти (L-BFGS)



Download 14,23 Mb.
Pdf ko'rish
bet340/779
Sana14.06.2022
Hajmi14,23 Mb.
#671946
TuriКнига
1   ...   336   337   338   339   340   341   342   343   ...   779
Bog'liq
Гудфеллоу Я , Бенджио И , Курвилль А Глубокое обучение

BFGS в ограниченной памяти (L-BFGS).
Потребление памяти в алгоритме BFGS 
можно значительно уменьшить, если не хранить полную аппроксимацию обратного 


272 

 
Оптимизация в обучении глубоких моделей
гессиана 
M
. В алгоритме L-BFGS аппроксимация 
M
вычисляется так же, как в BFGS, 
но, вместо того чтобы сохранять аппроксимацию между итерациями, делается пред-
положение, что 
M
(
t
–1)
– единичная матрица. При использовании совместно с точным 
линейным поиском направления, вычисляемые алгоритмом L-BFGS, являются вза-
имно сопряженными. Однако, в отличие от метода сопряженных градиентов, эта про-
цедура ведет себя хорошо, даже когда линейный поиск находит только приближен-
ный минимум. Описанную стратегию L-BFGS без запоминания можно обобщить, 
включив больше информации о гессиане; для этого нужно хранить некоторые век-
торы, используемые для обновления 
M
на каждом шаге, тогда потребуется только 
память объемом 
O
(
n
).
8.7. Стратегии оптимизации и метаалгоритмы
Многие методы оптимизации – не совсем алгоритмы, а скорее общие шаблоны, ко-
торые можно специализировать и получить алгоритмы или подпрограммы, включае-
мые в различные алгоритмы.
8.7.1. Пакетная нормировка
Пакетная нормировка (Ioffe and Szegedy, 2015) – одна из наиболее интересных нова-
ций в области оптимизации глубоких нейронных сетей – вообще алгоритмом не яв-
ляется. Это метод адаптивной перепараметризации, появившийся из-за трудностей 
обучения очень глубоких моделей.
Для очень глубоких моделей характерна композиция нескольких функций, или 
слоев. Градиент говорит, как обновлять каждый параметр в предположении, что дру-
гие слои не изменяются. На практике мы обновляем все слои одновременно. При вы-
полнении обновления могут произойти неожиданности, потому что ко всем образую-
щим композицию функции одновременно применяются обновления, вычисленные 
в предположении, что прочие функции сохраняют постоянство. Рассмотрим простой 
пример: предположим, что имеется глубокая нейронная сеть, в каждом слое которой 
находится по одному блоку и в скрытых слоях не используется функция активации: 
y


xw
1
w
2
w
3

w
l
. Здесь 
w
i
– вес в 
i
-м слое. Выход 
i
-го слоя 
h
i

h
i
–1
w
i
. Выход 
y

линей-
но зависит от входа 
x
, но нелинейно от весов 
w
i
. Предположим, что наша функция 
стоимости дала градиент 1 по 
y

, поэтому мы хотим немного уменьшить 
y

. Тогда ал-
горитм обратного распространения может вычислить градиент 

Download 14,23 Mb.

Do'stlaringiz bilan baham:
1   ...   336   337   338   339   340   341   342   343   ...   779




Ma'lumotlar bazasi mualliflik huquqi bilan himoyalangan ©hozir.org 2024
ma'muriyatiga murojaat qiling

kiriting | ro'yxatdan o'tish
    Bosh sahifa
юртда тантана
Боғда битган
Бугун юртда
Эшитганлар жилманглар
Эшитмадим деманглар
битган бодомлар
Yangiariq tumani
qitish marakazi
Raqamli texnologiyalar
ilishida muhokamadan
tasdiqqa tavsiya
tavsiya etilgan
iqtisodiyot kafedrasi
steiermarkischen landesregierung
asarlaringizni yuboring
o'zingizning asarlaringizni
Iltimos faqat
faqat o'zingizning
steierm rkischen
landesregierung fachabteilung
rkischen landesregierung
hamshira loyihasi
loyihasi mavsum
faolyatining oqibatlari
asosiy adabiyotlar
fakulteti ahborot
ahborot havfsizligi
havfsizligi kafedrasi
fanidan bo’yicha
fakulteti iqtisodiyot
boshqaruv fakulteti
chiqarishda boshqaruv
ishlab chiqarishda
iqtisodiyot fakultet
multiservis tarmoqlari
fanidan asosiy
Uzbek fanidan
mavzulari potok
asosidagi multiservis
'aliyyil a'ziym
billahil 'aliyyil
illaa billahil
quvvata illaa
falah' deganida
Kompyuter savodxonligi
bo’yicha mustaqil
'alal falah'
Hayya 'alal
'alas soloh
Hayya 'alas
mavsum boyicha


yuklab olish