Я. Гудфеллоу, И. Бенджио, А. Курвилль



Download 14,23 Mb.
Pdf ko'rish
bet243/779
Sana14.06.2022
Hajmi14,23 Mb.
#671946
TuriКнига
1   ...   239   240   241   242   243   244   245   246   ...   779
Bog'liq
Гудфеллоу Я , Бенджио И , Курвилль А Глубокое обучение

автоматического диф-
ференцирования
изучается вопрос об алгоритмическом вычислении производных. 
Описанный выше алгоритм обратного распространения – лишь один из подходов 
к автоматическому дифференцированию. Это частный случай более широкого класса 
методов, имеющих общее название 
обратное аккумулирование
(reverse mode accu-
mulation). В других подходах подвыражения в правиле дифференцирования сложной 
функции вычисляются в различном порядке. Вообще говоря, определение порядка 
вычислений, при котором стоимость вычислений минимальна, – трудная задача. За-
дача о нахождении оптимальной последовательности операций вычисления градиен-
та является NP-полной (Naumann, 2008) в том смысле, что может потребовать упро-
щения алгебраических выражений до наименее затратной формы.
Например, пусть имеются переменные 
p
1

p
2
, …, 
p
n
, представляющие вероятности, 
и переменные 
z
1

z
2
, …, 
z
n
, представляющие ненормированные логарифмы вероятно-
стей. Определим
(6.57)
т. е. функцию softmax, вычисление которой включает потенцирование, суммиро-
вание и деление, и построим функцию потерь на основе перекрестной энтропии
J
= –
Σ
i
p
i
log 
q
i
. Математик заметит, что производная 
J
по 
z
i
имеет очень простой вид: 


194 

 
Глубокие сети прямого распространения 
q
i
– 
p
i
. Но алгоритм обратного распространения не может упростить градиент таким 
образом и будет распространять градиенты через все операции логарифмирования 
и потенцирования, присутствующие в исходном графе. Некоторые библиотеки, на-
пример Theano (Bergstra et al., 2010; Bastien et al., 2012), умеют выполнять такого рода 
алгебраические подстановки, чтобы улучшить граф, предложенный чистым алгорит-
мом обратного распространения.
Если граф прямого распространения 
𝒢
содержит единственную выходную вер-
шину, и каждую частную производную 

u
(
i
)
/

u
(
j
)
можно вычислить за постоянное 
время, то алгоритм обратного распространения гарантирует, что объем вычислений 
при вычислении градиентов имеет такой же порядок, как при прямом вычислении: 
это видно из алгоритма 6.2, поскольку в рекурсивной формулировке правила диф-
ференцирования сложной функции (6.49) каждая локальная частная производная 

u
(
i
)
/

u
(
j
)
должна быть вычислена только один раз вместе с ассоциированным с ней 
умножением и сложением. Следовательно, общая вычислительная сложность со-
ставляет 
O
(число ребер). Ее теоретически можно уменьшить, если удастся упро-
стить граф вычислений, построенный алгоритмом обратного распрост ранения, но 
это NP-полная задача. В библиотеках Theano и TensorFlow делаются попытки ите-
ративно упростить граф, применяя эвристики, основанные на сравнении с извест-
ными типами упрощения. Мы определили обратное распространение только для 
вычисления градиента скалярного выхода, но это определение можно обобщить 
и на вычисление якобиана (либо 
k
разных скалярных вершин графа, либо тензор-
нозначной вершины, содержащей 
k
значений). Наивная реализация потребовала 
бы в 
k
раз больше вычислений: для каждой внутренней скалярной вершины ис-
ходного прямого графа вычислялось бы 
k
градиентов вместо одного. Если число 
выходов в графе больше числа входов, то иногда предпочтительнее другая форма 
автоматического дифференцирования – с 

Download 14,23 Mb.

Do'stlaringiz bilan baham:
1   ...   239   240   241   242   243   244   245   246   ...   779




Ma'lumotlar bazasi mualliflik huquqi bilan himoyalangan ©hozir.org 2024
ma'muriyatiga murojaat qiling

kiriting | ro'yxatdan o'tish
    Bosh sahifa
юртда тантана
Боғда битган
Бугун юртда
Эшитганлар жилманглар
Эшитмадим деманглар
битган бодомлар
Yangiariq tumani
qitish marakazi
Raqamli texnologiyalar
ilishida muhokamadan
tasdiqqa tavsiya
tavsiya etilgan
iqtisodiyot kafedrasi
steiermarkischen landesregierung
asarlaringizni yuboring
o'zingizning asarlaringizni
Iltimos faqat
faqat o'zingizning
steierm rkischen
landesregierung fachabteilung
rkischen landesregierung
hamshira loyihasi
loyihasi mavsum
faolyatining oqibatlari
asosiy adabiyotlar
fakulteti ahborot
ahborot havfsizligi
havfsizligi kafedrasi
fanidan bo’yicha
fakulteti iqtisodiyot
boshqaruv fakulteti
chiqarishda boshqaruv
ishlab chiqarishda
iqtisodiyot fakultet
multiservis tarmoqlari
fanidan asosiy
Uzbek fanidan
mavzulari potok
asosidagi multiservis
'aliyyil a'ziym
billahil 'aliyyil
illaa billahil
quvvata illaa
falah' deganida
Kompyuter savodxonligi
bo’yicha mustaqil
'alal falah'
Hayya 'alal
'alas soloh
Hayya 'alas
mavsum boyicha


yuklab olish