Я. Гудфеллоу, И. Бенджио, А. Курвилль



Download 14,23 Mb.
Pdf ko'rish
bet702/779
Sana14.06.2022
Hajmi14,23 Mb.
#671946
TuriКнига
1   ...   698   699   700   701   702   703   704   705   ...   779
Bog'liq
Гудфеллоу Я , Бенджио И , Курвилль А Глубокое обучение

θ

εΔ
θ
).
Инициализировать три матрицы 
V~

H~
(1)
и 
H~
(2)
с 
m
строками каждая случайными 
значениями (например, выбранными из распределений Бернулли с такими же 
маргиналами, как у модели).
while
не сошелся (цикл обучения) 
do
Выбрать мини-пакет 
m
примеров из обучающих данных и организовать его 
в виде строк матрицы плана 
V
.
Инициализировать матрицы 
H
ˆ
(1)
и 
H
ˆ
(2)
, возможно, маргиналами модели.
while
не сошелся (цикл вывода среднего поля) 
do
H
ˆ
(1)

σ
(
VW
(1)

H
ˆ
(2)
W
(2)

)
H
ˆ
(2)

σ
(
H
ˆ
(1)
W
(2)
)
end while
Δ
W
(1)

(1/
m
)


H
ˆ
(1)
Δ
W
(2)

(1/
m
)
H
ˆ
(1)

H
ˆ
(2)
for
l
= 1 to 
k
(выборка по Гиббсу) 
do
Блочная выборка по Гиббсу 1:

i

j

V
~
i

j
выбирается из 
P
(
V
~
i

j
= 1) = 
σ
(
W
j
,:
(1)
(
H~
i
,:
(1)
)

).

i

j

H
~
i

j
(2)
выбирается из 
P
(
H
~
i

j
(2)
= 1) = 
σ
(
H~
i
,:
(1)
W
:,
j
(2)
).
Блочная выборка по Гиббсу 2:

i

j

H
~
i

j
(1)
выбирается из 
P
(
H
~
i

j
(1)
= 1) = 
σ
(
V~
i
,:
W
:,
j
(1)

H~
i
,:
(2)
W
j
,:
(2)

).
end for
Δ
W
(1)

Δ
W
(1)
– (1/
m
)
V

H~
(1)
Δ
W
(2)

Δ
W
(2)
– (1/
m
)
H~
(1)

H~
(2)
W
(1)

W
(1)

ε
Δ
W
(1)
(это упрощенная иллюстрация, на практике применяет-
ся более эффективный алгоритм, например импульсный с убывающей ско-
ростью обучения)
W
(2)

W
(2)

ε
Δ
W
(2)
end while


562 

 
Глубокие порождающие модели 
(a)
(c)
(b)
(d)
Рис. 20.4 

Процедура обучения глубокой машины Больцмана, использо-
ванной для классификации набора данных MNISТ (Salakhutdinov and Hinton, 
2009a; Srivastava et al., 2014). (
a
) Обучить ОМБ, применив алгоритм CD для 
приближенной максимизации 
log 
P
(
v
)
. (
b
) Обучить вторую ОМБ, которая 
моделирует 
h
(1)
и целевой класс 
y
, применив алгоритм CD-k для прибли-
женной максимизации 
log 
P
(
h
(1)
, y)
, где 
h
(1)
выборка из апостериорного 
распределения первой ОМБ при условии данных. Увеличивать 
k
от 1 до 
20 в процессе обучения. (
c
) Объединить обе ОМБ в ГМБ. Обучить ее при-
ближенной максимизации 
log 
P
(
v
, y)
, применив алгоритм стохастической 
максимизации правдоподобия с 
k
= 5. (
d
) Удалить 
y
из модели. Определить 
новый набор признаков 
h
(1)
и 
h
(2)
, полученных путем выполнения вывода 
среднего поля в модели без 
y
. Использовать эти признаки в качестве входа 
МСП, структура которого такая же, как структура дополнительного прохода 
среднего поля, с дополнительным выходным слоем для оценки 
y
. Инициа-
лизировать веса МСП весами ГМБ. Обучить МСП приближенной максими-
зации 
log 
P
(y |
v
)
, применив алгоритм стохастического градиентного спуска 
и прореживание. Рисунок взят из работы Goodfellow et al. (2013b)
Эта процедура жадного послойного обучения – не просто покоординатное вос-
хождение. Она действительно напоминает покоординатное восхождение, потому что 
на каждом шаге мы оптимизируем одно подмножество параметров. Но оба метода 
отличаются, поскольку в процедуре жадного послойного обучения на каждом шаге 
используется другая целевая функция.
Жадное послойное предобучение ГМБ отличается от жадного послойного 
предобуче ния ГСД. Параметры каждой отдельной ОМБ можно копировать в соот-
ветствующую ГСД непосредственно. В случае же ГМБ параметры ОМБ необходимо 


Глубокие машины Больцмана 

563
модифицировать перед включением в ГМБ. Слой в середине стека ОМБ обучается 
только на входных данных, поступающих снизу, но после того как стек собран в ГМБ, 
этому слою данные поступают снизу и сверху. Чтобы учесть этот эффект, в работе 
Salakhutdinov and Hinton (2009a) предлагается делить пополам веса всех ОМБ, кро-
ме нижней и верхней, перед тем как вставлять их в ГМБ. Кроме того, нижнюю ОМБ 
следует обучать с использованием двух «копий» каждого видимого блока со связан-
ными, равными между собой весами. Это означает, что на восходящем проходе веса, 
по сути дела, удваиваются. Аналогично верхнюю ОМБ следует обучать с использова-
нием двух копий верхнего слоя.
Для получения не уступающих лучшим образцам результатов с помощью глубо-
ких машин Больцмана необходимо модифицировать стандартный алгоритм стоха-
стической максимизации правдоподобия, а именно использовать небольшую толи-
ку среднего поля в отрицательной фазе шага совместного обучения методом PCD 
(Salakhutdinov and Hinton, 2009a). Точнее говоря, математическое ожидание гради-
ента энергии следует вычислять относительно распределения среднего поля, в кото-
ром все блоки независимы. Параметры этого распределения среднего поля следует 
получать, выполнив всего одну итерацию уравнений неподвижной точки среднего 
поля. См. работу Goodfellow et al. (2013b), где приведено сравнение качества центри-
рованных ГМБ с применением частичного среднего поля в отрицательной фазе и без 
оного.

Download 14,23 Mb.

Do'stlaringiz bilan baham:
1   ...   698   699   700   701   702   703   704   705   ...   779




Ma'lumotlar bazasi mualliflik huquqi bilan himoyalangan ©hozir.org 2024
ma'muriyatiga murojaat qiling

kiriting | ro'yxatdan o'tish
    Bosh sahifa
юртда тантана
Боғда битган
Бугун юртда
Эшитганлар жилманглар
Эшитмадим деманглар
битган бодомлар
Yangiariq tumani
qitish marakazi
Raqamli texnologiyalar
ilishida muhokamadan
tasdiqqa tavsiya
tavsiya etilgan
iqtisodiyot kafedrasi
steiermarkischen landesregierung
asarlaringizni yuboring
o'zingizning asarlaringizni
Iltimos faqat
faqat o'zingizning
steierm rkischen
landesregierung fachabteilung
rkischen landesregierung
hamshira loyihasi
loyihasi mavsum
faolyatining oqibatlari
asosiy adabiyotlar
fakulteti ahborot
ahborot havfsizligi
havfsizligi kafedrasi
fanidan bo’yicha
fakulteti iqtisodiyot
boshqaruv fakulteti
chiqarishda boshqaruv
ishlab chiqarishda
iqtisodiyot fakultet
multiservis tarmoqlari
fanidan asosiy
Uzbek fanidan
mavzulari potok
asosidagi multiservis
'aliyyil a'ziym
billahil 'aliyyil
illaa billahil
quvvata illaa
falah' deganida
Kompyuter savodxonligi
bo’yicha mustaqil
'alal falah'
Hayya 'alal
'alas soloh
Hayya 'alas
mavsum boyicha


yuklab olish