Я. Гудфеллоу, И. Бенджио, А. Курвилль



Download 14,23 Mb.
Pdf ko'rish
bet635/779
Sana14.06.2022
Hajmi14,23 Mb.
#671946
TuriКнига
1   ...   631   632   633   634   635   636   637   638   ...   779
Bog'liq
Гудфеллоу Я , Бенджио И , Курвилль А Глубокое обучение

514 

 
Преодоление трудностей, связанных со статической суммой
В работе Carreira-Perpin~an and Hinton (2005) экспериментально показано, что 
CD-оценка является смещенной для ограниченных и полностью видимых машин 
Больцмана в том смысле, что сходится не к тем же точкам, что оценка максималь-
ного правдоподобия. Авторы замечают, что поскольку смещение невелико, то алго-
ритм CD можно было бы использовать как дешевый способ инициализации модели, 
а затем уточнить модель, применяя более дорогостоящие MCMC-методы. В работе 
Bengio and Delalleau (2009) показано, что CD можно интерпретировать как отбрасы-
вание наименьших членов правильного градиента MCMC-обновления, объясняю-
щего смещение.
Алгоритм CD полезен для обучения мелких моделей типа ОМБ. Собрав несколько 
таких моделей, можно инициализировать более глубокие модели, например глубо-
кие сети доверия или глубокие машины Больцмана. Но CD мало чем может помочь 
в непосредственном обучении более глубоких моделей. Все дело в трудности полу-
чения примеров скрытых блоков при наличии примеров видимых блоков. Поскольку 
скрытые блоки не включаются в данные, инициализация по обучающим примерам не 
решает проблему. Даже если видимые блоки инициализированы на основе данных, 
мы все равно должны приработать марковскую цепь, чтобы получить выборку из рас-
пределения скрытых блоков при условии видимых примеров.
Можно считать, что алгоритм CD штрафует модель за наличие марковской цепи, 
которая быстро изменяет вход, если тот поступает из данных. Это означает, что обуче-
ние с помощью CD чем-то напоминает обучение автокодировщика. Несмотря на то 
что смещение CD больше, чем у некоторых других методов обучения, этот алгоритм 
может быть полезен для предобучения мелких моделей, которые впоследствии соби-
раются в стек. Объясняется это тем, что предшествующие модели в стеке копируют 
больше информации в свои латентные переменные, делая ее доступной последую-
щим моделям. Это следует рассматривать скорее как часто эксплуатируемый побоч-
ный эффект обучения с помощью CD, нежели как принципиальную особенность, за-
ложенную в проект.
В работе Sutskever and Тieleman (2010) показано, что направление обновления 
в CD не совпадает с направлением градиента какой-либо функции. В результате CD 
может зациклиться, но на практике это не представляет серьезной проблемы.
Другая стратегия, решающая многие проблемы, присущие CD, – инициализи-
ровать марковские цепи на каждом шаге градиентного спуска состояниями с пре-
дыдущего шага. Впервые этот подход получил распространение под названием 

Download 14,23 Mb.

Do'stlaringiz bilan baham:
1   ...   631   632   633   634   635   636   637   638   ...   779




Ma'lumotlar bazasi mualliflik huquqi bilan himoyalangan ©hozir.org 2024
ma'muriyatiga murojaat qiling

kiriting | ro'yxatdan o'tish
    Bosh sahifa
юртда тантана
Боғда битган
Бугун юртда
Эшитганлар жилманглар
Эшитмадим деманглар
битган бодомлар
Yangiariq tumani
qitish marakazi
Raqamli texnologiyalar
ilishida muhokamadan
tasdiqqa tavsiya
tavsiya etilgan
iqtisodiyot kafedrasi
steiermarkischen landesregierung
asarlaringizni yuboring
o'zingizning asarlaringizni
Iltimos faqat
faqat o'zingizning
steierm rkischen
landesregierung fachabteilung
rkischen landesregierung
hamshira loyihasi
loyihasi mavsum
faolyatining oqibatlari
asosiy adabiyotlar
fakulteti ahborot
ahborot havfsizligi
havfsizligi kafedrasi
fanidan bo’yicha
fakulteti iqtisodiyot
boshqaruv fakulteti
chiqarishda boshqaruv
ishlab chiqarishda
iqtisodiyot fakultet
multiservis tarmoqlari
fanidan asosiy
Uzbek fanidan
mavzulari potok
asosidagi multiservis
'aliyyil a'ziym
billahil 'aliyyil
illaa billahil
quvvata illaa
falah' deganida
Kompyuter savodxonligi
bo’yicha mustaqil
'alal falah'
Hayya 'alal
'alas soloh
Hayya 'alas
mavsum boyicha


yuklab olish