Я. Гудфеллоу, И. Бенджио, А. Курвилль



Download 14,23 Mb.
Pdf ko'rish
bet244/779
Sana14.06.2022
Hajmi14,23 Mb.
#671946
TuriКнига
1   ...   240   241   242   243   244   245   246   247   ...   779
Bog'liq
Гудфеллоу Я , Бенджио И , Курвилль А Глубокое обучение

прямым аккумулированием
(forward 
mode accumulation). Прямое аккумулирование было предложено для вычисления 
градиентов в режиме реального времени в рекуррентных сетях, см., например, Wil-
liams and Zipser, 1989. При таком подходе удается также избежать хранения значе-
ний и градиентов для всего графа, пожертвовав частью вычислительной эффектив-
ности ради памяти. Связь между прямым и обратным режимами аккумулирования 
аналогична связи между умножением слева и справа при перемножении последо-
вательности матриц:
ABCD
.
 
(6.58)
Можно считать, что это матрицы Якоби. Например, если 
D
– вектор-столбец, а 
A
содержит много строк, то в графе будет один выход и много входов. Если выпол-
нять умножения от конца к началу, то вычислять нужно будет только произведения 
мат рицы на вектор. Это соответствует обратному аккумулированию. Напротив, если 
умно жать слева направо, то нужно будет вычислять произведения матрицы на матри-
цу, и все вычисление окажется намного дороже. Однако если число строк 
A
меньше 
числа столбцов 
D
, то дешевле выполнять умножение слева направо, что соответству-
ет прямому аккумулированию.
Во многих сообществах, не связанных с машинным обучением, принято писать 
код дифференцирования на традиционном языке программирования, например Py-
thon или C, и автоматически сгенерированная программа применяется к функциям, 


Обратное распространение и другие алгоритмы дифференцирования 

195
написанным на том же языке. Но в глубоком обучении графы вычислений обычно 
представляются с помощью явных структур данных, создаваемых специальными 
библиотеками. У такого подхода есть недостаток: разработчик библиотеки должен 
определить методы 
bprop
для каждой операции, а пользователь ограничен лишь теми 
операциями, которые определил автор. Однако у него есть и достоинство: для каждой 
операции можно написать специализированные правила обратного распространения, 
что позволяет повысить быстродействие и устойчивость неочевидными способами, 
которые автоматическая процедура вряд ли смогла бы повторить.
Таким образом, обратное распространение – не единственный и не оптимальный 
способ вычисления градиента, но это удобный на практике метод, который удовлет-
воряет потребности сообщества машинного обучения. В будущем, когда специали-
сты-практики будут лучше знать о достижениях общей теории автоматического диф-
ференцирования, технология дифференцирования для глубоких сетей, возможно,
усовершенствуется.

Download 14,23 Mb.

Do'stlaringiz bilan baham:
1   ...   240   241   242   243   244   245   246   247   ...   779




Ma'lumotlar bazasi mualliflik huquqi bilan himoyalangan ©hozir.org 2024
ma'muriyatiga murojaat qiling

kiriting | ro'yxatdan o'tish
    Bosh sahifa
юртда тантана
Боғда битган
Бугун юртда
Эшитганлар жилманглар
Эшитмадим деманглар
битган бодомлар
Yangiariq tumani
qitish marakazi
Raqamli texnologiyalar
ilishida muhokamadan
tasdiqqa tavsiya
tavsiya etilgan
iqtisodiyot kafedrasi
steiermarkischen landesregierung
asarlaringizni yuboring
o'zingizning asarlaringizni
Iltimos faqat
faqat o'zingizning
steierm rkischen
landesregierung fachabteilung
rkischen landesregierung
hamshira loyihasi
loyihasi mavsum
faolyatining oqibatlari
asosiy adabiyotlar
fakulteti ahborot
ahborot havfsizligi
havfsizligi kafedrasi
fanidan bo’yicha
fakulteti iqtisodiyot
boshqaruv fakulteti
chiqarishda boshqaruv
ishlab chiqarishda
iqtisodiyot fakultet
multiservis tarmoqlari
fanidan asosiy
Uzbek fanidan
mavzulari potok
asosidagi multiservis
'aliyyil a'ziym
billahil 'aliyyil
illaa billahil
quvvata illaa
falah' deganida
Kompyuter savodxonligi
bo’yicha mustaqil
'alal falah'
Hayya 'alal
'alas soloh
Hayya 'alas
mavsum boyicha


yuklab olish