Я. Гудфеллоу, И. Бенджио, А. Курвилль



Download 14,23 Mb.
Pdf ko'rish
bet286/779
Sana14.06.2022
Hajmi14,23 Mb.
#671946
TuriКнига
1   ...   282   283   284   285   286   287   288   289   ...   779
Bog'liq
Гудфеллоу Я , Бенджио И , Курвилль А Глубокое обучение

230 

 
Регуляризация в глубоком обучении 
емкость модели. Чтобы компенсировать этот эффект, мы должны увеличить размер 
модели. Как правило, оптимальная ошибка на контрольном наборе при использова-
нии прореживания намного ниже, но расплачиваться за это приходится гораздо боль-
шим размером модели и числом итераций алгоритма обучения. Для очень больших 
наборов данных регуляризация не сильно снижает ошибку обобщения. В таких слу-
чаях вычислительная стоимость прореживания и увеличение модели могут переве-
сить выигрыш от регуляризации.
Есть в нашем распоряжении очень мало помеченных обучающих примеров, то 
прореживание менее эффективно. Байесовские нейронные сети (Neal, 1996) оказы-
ваются лучше на наборе данных Alternative Splicing Dataset (Xiong et al., 2011), со-
держащем менее 5000 примеров (Srivastava et al., 2014). Если дополнительно име-
ются непомеченные данные, то отбор признаков путем обучения без учителя может 
превзой ти прореживание.
В работе Wager et al. (2013) показано, что в случае применения к линейной ре-
грессии прореживание эквивалентно снижению весов по норме 
L
2
, когда для каждого 
входного признака задается свой коэффициент снижения веса. Абсолютная величина 
каждого коэффициента определяет дисперсией признака. Аналогичные результаты 
имеют место для других линейных моделей. Для глубоких моделей прореживание не 
эквивалентно снижению весов.
Использование стохастичности в обучении с прореживанием не является необхо-
димым условием успеха. Это просто средство аппроксимации суммы по всем под-
моделям. В работе Wang and Manning (2013) получены аналитические аппроксима-
ции этой маргинализации. Найденная ими аппроксимация, известная под названием 
«
быст рое прореживание
», сходится быстрее благодаря уменьшению стохастично-
сти при вычислении градиента. Этот метод можно применять и на стадии тестиро-
вания, как теоретически более обоснованную (хотя вычислительно более дорогую) 
аппроксимацию среднего во всем подсетям, по сравнению с масштабированием весов. 
Быстрое прореживание по качеству почти не уступает стандартному на небольших 
нейронных сетях, но пока не сумело достичь существенного улучшения и не приме-
нялось к большим задачам.
Мало того что стохастичность не является необходимой для достижения регуляри-
зирующего эффекта прореживания, она еще и недостаточна. Чтобы продемонстриро-
вать это, в работе Warde-Farley et al. (2014) поставлены контрольные эксперименты 
с помощью метода 

Download 14,23 Mb.

Do'stlaringiz bilan baham:
1   ...   282   283   284   285   286   287   288   289   ...   779




Ma'lumotlar bazasi mualliflik huquqi bilan himoyalangan ©hozir.org 2024
ma'muriyatiga murojaat qiling

kiriting | ro'yxatdan o'tish
    Bosh sahifa
юртда тантана
Боғда битган
Бугун юртда
Эшитганлар жилманглар
Эшитмадим деманглар
битган бодомлар
Yangiariq tumani
qitish marakazi
Raqamli texnologiyalar
ilishida muhokamadan
tasdiqqa tavsiya
tavsiya etilgan
iqtisodiyot kafedrasi
steiermarkischen landesregierung
asarlaringizni yuboring
o'zingizning asarlaringizni
Iltimos faqat
faqat o'zingizning
steierm rkischen
landesregierung fachabteilung
rkischen landesregierung
hamshira loyihasi
loyihasi mavsum
faolyatining oqibatlari
asosiy adabiyotlar
fakulteti ahborot
ahborot havfsizligi
havfsizligi kafedrasi
fanidan bo’yicha
fakulteti iqtisodiyot
boshqaruv fakulteti
chiqarishda boshqaruv
ishlab chiqarishda
iqtisodiyot fakultet
multiservis tarmoqlari
fanidan asosiy
Uzbek fanidan
mavzulari potok
asosidagi multiservis
'aliyyil a'ziym
billahil 'aliyyil
illaa billahil
quvvata illaa
falah' deganida
Kompyuter savodxonligi
bo’yicha mustaqil
'alal falah'
Hayya 'alal
'alas soloh
Hayya 'alas
mavsum boyicha


yuklab olish