Я. Гудфеллоу, И. Бенджио, А. Курвилль



Download 14,23 Mb.
Pdf ko'rish
bet457/779
Sana14.06.2022
Hajmi14,23 Mb.
#671946
TuriКнига
1   ...   453   454   455   456   457   458   459   460   ...   779
Bog'liq
Гудфеллоу Я , Бенджио И , Курвилль А Глубокое обучение

центральную разность
:
 
(11.7)
Величина возмущения 
ε
должна быть достаточно большой, чтобы предотвратить 
слишком сильное округление в процессе вычисления конечных разностей.
Обычно мы хотим протестировать градиент якобиана или векторной функции 
g


m


n
. К сожалению, метод конечных разностей позволяет вычислять только 
одну производную в каждый момент времени. Следовательно, можно либо приме-
нить его 
mn
раз для вычисления всех частных производных 
g
, либо выполнить тест 
для новой функции, в которой берутся случайные проекции на вход и выход 
g
. На-
пример, можно применить тест к реализации производных функции 
f
(
x
) = 
u
Т
g
(
v
x
), 
где 
u
и 
v
– случайно выбранные векторы. Для правильного вычисления 
f

(
x
) нужно 
уметь корректно выполнять обратное распространение через 
g
, но это можно сделать 
эффективно и с помощью метода конечных разностей, потому что у 
f
всего один ска-


370 

 
Практическая методология 
лярный аргумент и одно выходное значение. Обычно имеет смысл повторить тест для 
нескольких значений 
u
и 
v
, чтобы не проглядеть ошибок, ортогональных направле-
нию случайного проецирования.
Если речь идет о вычислениях с комплексными числами, то существует очень эф-
фективный способ численной оценки градиента путем передачи функции комплексно-
го аргумента (Squire and Trapp, 1998). В основе метода лежит следующее наблюдение:
f
(
x

i
ε
) = 
f
(
x
) + 
i
ε
f

(
x
) + 
O
(
ε
2
),
 
(11.8)
Re(
f
(
x

i
ε
)) = 
f
(
x
) + 
O
(
ε
2
),
 
(11.9)
где 
i

. В отличие от рассмотренного выше вещественного случая, здесь нет по-
тери значащих цифр, потому что вычисляется разность между значениями 
f
в разных 
точках. Это позволяет брать очень малые значения 
ε
, например 10
–150
, так что погреш-
ность 
O
(
ε
2
) практически несущественна.
Мониторинг гистограмм активаций и градиента.
Часто бывает полезно визуали-
зировать статистику активаций и градиента нейронной сети, собранную по многим 
итерациям обучения (быть может, по одному периоду). Значения скрытых блоков до 
активации могут сказать, являются ли блоки насыщенными и как часто такое случа-
ется. Например, если речь идет о блоках линейной ректификации, то как часто они 
выключены? А есть ли блоки, которые всегда выключены? В случае tanh-блоков о на-
сыщении блока говорит среднее абсолютных величин до активации. В глубокой сети, 
где распространяемые градиенты быстро растут или быстро приближаются к нулю, 
могут возникнуть препятствия для оптимизации. Наконец, полезно сравнить модули 
градиентов параметров с модулями самих параметров. В работе Bottou (2015) реко-
мендуется, чтобы модуль изменения параметра по мини-пакету составлял примерно 
1% от модуля параметра, а не 50% и не 0.001% (тогда изменение параметров было бы 
слишком медленным). Может оказаться, что некоторые группы параметров изменя-
ются в хорошем темпе, тогда как другие топчутся на месте. Если данные разрежены 
(как в естественном языке), то некоторые параметры могут обновляться очень редко, 
и об этом следует помнить, наблюдая за их эволюцией.
Наконец, многие алгоритмы глубокого обучения дают некоторые гарантии относи-
тельно результатов на каждом шаге. Например, в части III мы встретимся с алгорит-
мами приближенного вывода, в основе которых лежит алгебраическое решение задач 
оптимизации. Обычно для их отладки можно проверить выполнение каждой гаран-
тии. Приведем несколько примеров подобных гарантий: целевая функция никогда не 
увеличивается после одного шага алгоритма; градиент относительно некоторого под-
множества переменных равен 0 после каждого шага алгоритма; градиент по всем пере-
менным равен 0 по достижении сходимости. Обычно из-за ошибок округления эти 
условия выполняются неточно, поэтому при отладке нужно делать небольшой допуск.

Download 14,23 Mb.

Do'stlaringiz bilan baham:
1   ...   453   454   455   456   457   458   459   460   ...   779




Ma'lumotlar bazasi mualliflik huquqi bilan himoyalangan ©hozir.org 2024
ma'muriyatiga murojaat qiling

kiriting | ro'yxatdan o'tish
    Bosh sahifa
юртда тантана
Боғда битган
Бугун юртда
Эшитганлар жилманглар
Эшитмадим деманглар
битган бодомлар
Yangiariq tumani
qitish marakazi
Raqamli texnologiyalar
ilishida muhokamadan
tasdiqqa tavsiya
tavsiya etilgan
iqtisodiyot kafedrasi
steiermarkischen landesregierung
asarlaringizni yuboring
o'zingizning asarlaringizni
Iltimos faqat
faqat o'zingizning
steierm rkischen
landesregierung fachabteilung
rkischen landesregierung
hamshira loyihasi
loyihasi mavsum
faolyatining oqibatlari
asosiy adabiyotlar
fakulteti ahborot
ahborot havfsizligi
havfsizligi kafedrasi
fanidan bo’yicha
fakulteti iqtisodiyot
boshqaruv fakulteti
chiqarishda boshqaruv
ishlab chiqarishda
iqtisodiyot fakultet
multiservis tarmoqlari
fanidan asosiy
Uzbek fanidan
mavzulari potok
asosidagi multiservis
'aliyyil a'ziym
billahil 'aliyyil
illaa billahil
quvvata illaa
falah' deganida
Kompyuter savodxonligi
bo’yicha mustaqil
'alal falah'
Hayya 'alal
'alas soloh
Hayya 'alas
mavsum boyicha


yuklab olish