Я. Гудфеллоу, И. Бенджио, А. Курвилль


пакетными , или  детерминированными



Download 14,23 Mb.
Pdf ko'rish
bet301/779
Sana14.06.2022
Hajmi14,23 Mb.
#671946
TuriКнига
1   ...   297   298   299   300   301   302   303   304   ...   779
Bog'liq
Гудфеллоу Я , Бенджио И , Курвилль А Глубокое обучение

пакетными
, или 
детерминированными
, градиентными методами, поскольку 
обрабатывают сразу все примеры одним большим пакетом. Эта терминология может 
вызывать путаницу, потому что слово «пакет» часто употребляется также для обозна-
чения мини-пакета, применяемого в алгоритме стохастического градиентного спуска. 
Как правило, термин «пакетный градиентный спуск» подразумевает использование 
всего обучающего набора, а термин «пакет», применяемый для описания группы 
примеров, таких 
коннотаций 
*уточнить слово*
не имеет. Например, словосочетание 
«размер пакета» часто означает размер мини-пакета.
Алгоритмы оптимизации, в которых используется по одному примеру за раз, иног-
да называют 
стохастическими
, или 
онлайновыми
, методами. Термин «онлайновый» 


Чем обучение отличается от чистой оптимизации 

241
обычно резервируется для случая, когда примеры выбираются из непрерывного по-
тока, а не из обучающего набора фиксированного размера, по которому можно совер-
шать несколько проходов.
Большинство алгоритмов, используемых в глубоком обучении, находится где-то 
посередине – число примеров в них больше одного, но меньше размера обучающего 
набора. Традиционно они назывались 
мини-пакетными,
или 
мини-пакетными стоха-
стическими
, методами, а сейчас – просто 
стохастическими
.
Канонический пример стохастического метода – стохастический градиентный 
спуск, который подробно будет описан в разделе 8.3.1.
На размер мини-пакета оказывают влияние следующие факторы:
 

чем больше пакет, тем точнее оценка градиента, но зависимость хуже линейной;
 

если пакет очень мал, то не удается в полной мере задействовать преимущества 
многоядерной архитектуры. Поэтому существует некий абсолютный минимум 
размера пакета – такой, что обработка мини-пакетов меньшего размера не дает 
никакого выигрыша во времени;
 

если все примеры из пакета нужно обрабатывать параллельно (так обычно 
и бывает), то размер пакета лимитирован объемом памяти. Для многих аппа-
ратных конфигураций размер пакета – ограничивающий фактор;
 

для некоторых видов оборудования оптимальное время выполнения достига-
ется при определенных размерах массива. Так, для GPU наилучшие результаты 
получаются, когда размер пакета – степень 2. Типичный пакет имеет размер от 
32 до 256, а для особо больших моделей иногда пробуют 16;
 

небольшие пакеты могут дать эффект регуляризации (Wilson and Marti-
nez, 2003), быть может, из-за шума, который они вносят в процесс обучения. 
Ошибка обобщения часто оказывается наилучшей для пакета размера 1. Но 
для обуче ния с таким маленьким размером пакета нужна небольшая скорость 
обучения для обеспечения устойчивости из-за высокой дисперсии оценки гра-
диента. Общее время работы может оказаться очень большим из-за увеличения 
числа шагов – как из-за пониженной скорости обучения, так и потому, что для 
перебора всего обучающего набора требуется больше шагов.
В зависимости от вида алгоритма используется разная информация из мини-па-
кета, причем разными способами. Одни алгоритмы более чувствительны к ошибке 
выборки, чем другие, либо потому что в них используется информация, которую 
трудно оценить точно на небольшой выборке, либо потому что информация исполь-
зуется так, что ошибка выборки усиливается. Методы, которые вычисляют обновле-
ния только на основе градиента 
g
, обычно сравнительно устойчивы и могут работать 
с пакетами небольшого размера, порядка 100. Методы второго порядка, в которых 
используется также матрица Гессе 

Download 14,23 Mb.

Do'stlaringiz bilan baham:
1   ...   297   298   299   300   301   302   303   304   ...   779




Ma'lumotlar bazasi mualliflik huquqi bilan himoyalangan ©hozir.org 2024
ma'muriyatiga murojaat qiling

kiriting | ro'yxatdan o'tish
    Bosh sahifa
юртда тантана
Боғда битган
Бугун юртда
Эшитганлар жилманглар
Эшитмадим деманглар
битган бодомлар
Yangiariq tumani
qitish marakazi
Raqamli texnologiyalar
ilishida muhokamadan
tasdiqqa tavsiya
tavsiya etilgan
iqtisodiyot kafedrasi
steiermarkischen landesregierung
asarlaringizni yuboring
o'zingizning asarlaringizni
Iltimos faqat
faqat o'zingizning
steierm rkischen
landesregierung fachabteilung
rkischen landesregierung
hamshira loyihasi
loyihasi mavsum
faolyatining oqibatlari
asosiy adabiyotlar
fakulteti ahborot
ahborot havfsizligi
havfsizligi kafedrasi
fanidan bo’yicha
fakulteti iqtisodiyot
boshqaruv fakulteti
chiqarishda boshqaruv
ishlab chiqarishda
iqtisodiyot fakultet
multiservis tarmoqlari
fanidan asosiy
Uzbek fanidan
mavzulari potok
asosidagi multiservis
'aliyyil a'ziym
billahil 'aliyyil
illaa billahil
quvvata illaa
falah' deganida
Kompyuter savodxonligi
bo’yicha mustaqil
'alal falah'
Hayya 'alal
'alas soloh
Hayya 'alas
mavsum boyicha


yuklab olish