Я. Гудфеллоу, И. Бенджио, А. Курвилль


Пакетные и мини-пакетные алгоритмы



Download 14,23 Mb.
Pdf ko'rish
bet300/779
Sana14.06.2022
Hajmi14,23 Mb.
#671946
TuriКнига
1   ...   296   297   298   299   300   301   302   303   ...   779
Bog'liq
Гудфеллоу Я , Бенджио И , Курвилль А Глубокое обучение

8.1.3. Пакетные и мини-пакетные алгоритмы
Еще одно отличие алгоритмов машинного обучения от общих алгоритмов оптимиза-
ции состоит в том, что целевая функция обычно представлена в виде суммы по обучаю-
щим примерам. Типичный алгоритм оптимизации в машинном обучении вычисляет 


240 

 
Оптимизация в обучении глубоких моделей
каждое обновление параметров, исходя из ожидаемого значения функции стоимости, 
оцениваемого только по подмножеству членов полной функции стоимости.
Например, оценка максимального правдоподобия, рассматриваемая в логарифми-
ческом пространстве, представлена в виде суммы по всем примерам:
(8.4)
Максимизация этой суммы эквивалентна максимизации математического ожида-
ния эмпирического распределения, определяемого обучающим набором:
J
(
θ
) = 
𝔼
x
, y

p

data
log 
p
model
(
x

y

θ
). 
(8.5)
Большинство свойств целевой функции 
J
, используемой чуть ли не во всех наших 
алгоритмах оптимизации, также выражается в терминах математического ожидания 
по обучающему набору. Например, чаще всего используется ее градиент:

θ

J
(
θ
) = 
𝔼
x
, y

p

data

θ 
log 
p
model
(
x

y

θ
). 
(8.6)
Вычисление точного значения этого математического ожидания обошлось бы 
очень дорого, потому что для этого нужно вычислить модель на каждом примере из 
набора данных. На практике можно случайно выбрать небольшое число примеров 
и усреднить только по ним.
Напомним, что стандартная ошибка среднего (формула 5.46), оцененная по выбор-
ке объема 
n
, равна 
σ
/

_
n
, где 
σ
– истинное стандартное отклонение выборки. Знамена-
тель 
σ
/

_
n
показывает, что точность оценки градиента с увеличением объема выборки 
растет медленнее, чем линейно. Сравним две гипотетические оценки градиента, одна 
на основе 100 примеров, другая – 10 000. Для вычисления второй оценки потребу-
ется в 100 раз больше времени, но стандартная ошибка среднего уменьшится только 
в 10 раз. Большинство алгоритмов оптимизации сходится гораздо быстрее (в терми-
нах общего времени вычислений, а не числа обновлений), если им позволено быстро 
вычислять приближенные оценки градиента вместо медленного вычисления точного 
значения.
Еще одно сообщение в пользу статистического оценивания градиента по небольшой 
выборке связано с избыточностью обучающего набора. В худшем случае все 
m
приме-
ров в обучающем наборе в точности совпадают. Оценка градиента по выборке дала бы 
правильное значение, взяв всего один пример, т. е. было бы затрачено в 
m
раз меньше 
времени, чем при наивном подходе. На практике нам вряд ли встретится худший слу-
чай, но все же можно найти много примеров, дающих очень похожий вклад в градиент.
Алгоритмы оптимизации, в которых используется весь обучающий пакет, назы-
ваются 

Download 14,23 Mb.

Do'stlaringiz bilan baham:
1   ...   296   297   298   299   300   301   302   303   ...   779




Ma'lumotlar bazasi mualliflik huquqi bilan himoyalangan ©hozir.org 2024
ma'muriyatiga murojaat qiling

kiriting | ro'yxatdan o'tish
    Bosh sahifa
юртда тантана
Боғда битган
Бугун юртда
Эшитганлар жилманглар
Эшитмадим деманглар
битган бодомлар
Yangiariq tumani
qitish marakazi
Raqamli texnologiyalar
ilishida muhokamadan
tasdiqqa tavsiya
tavsiya etilgan
iqtisodiyot kafedrasi
steiermarkischen landesregierung
asarlaringizni yuboring
o'zingizning asarlaringizni
Iltimos faqat
faqat o'zingizning
steierm rkischen
landesregierung fachabteilung
rkischen landesregierung
hamshira loyihasi
loyihasi mavsum
faolyatining oqibatlari
asosiy adabiyotlar
fakulteti ahborot
ahborot havfsizligi
havfsizligi kafedrasi
fanidan bo’yicha
fakulteti iqtisodiyot
boshqaruv fakulteti
chiqarishda boshqaruv
ishlab chiqarishda
iqtisodiyot fakultet
multiservis tarmoqlari
fanidan asosiy
Uzbek fanidan
mavzulari potok
asosidagi multiservis
'aliyyil a'ziym
billahil 'aliyyil
illaa billahil
quvvata illaa
falah' deganida
Kompyuter savodxonligi
bo’yicha mustaqil
'alal falah'
Hayya 'alal
'alas soloh
Hayya 'alas
mavsum boyicha


yuklab olish