Я. Гудфеллоу, И. Бенджио, А. Курвилль


do f ( k ) =  ℒ ( X~



Download 14,23 Mb.
Pdf ko'rish
bet551/779
Sana14.06.2022
Hajmi14,23 Mb.
#671946
TuriКнига
1   ...   547   548   549   550   551   552   553   554   ...   779
Bog'liq
Гудфеллоу Я , Бенджио И , Курвилль А Глубокое обучение

do
f
(
k
)


(
X~
)
f

f
(
k
)

f
X~

f
(
k
)
(
X~
)
end for
if
окончательная-настройка
then
f

𝒯
(
f

X

Y
)
end if
Return
f
С самого начала уточним, что это обсуждение в основном касается только жадного 
предобучения без учителя. Существуют другие, принципиально отличающиеся па-
радигмы обучения с частичным привлечением учителя в применении к нейронным 
сетям, например виртуальное состязательное обучение, описанное в разделе 7.13. 
Можно также обучить автокодировщик или порождающую модель одновременно 
с моделью, обученной с учителем. К таким одношаговым подходам можно отнести 
дискриминантную ОМБ (Larochelle and Bengio, 2008) и ступенчатую сеть (ladder 
network) (Rasmus et al., 2015), в которой целевая функция явно представлена в виде 
суммы двух членов (в одном используются только метки, а в другом – только вход-
ные данные).


Жадное послойное предобучение без учителя 

447
В предобучении без учителя объединены две идеи. Во-первых, идея о том, что вы-
бор начальных значений параметров глубокой нейронной сети может оказывать суще-
ственное регуляризирующее влияние на модель (и, в меньшей степени, способствовать 
улучшению оптимизации). Во-вторых, общая идея о том, что знание о распределении 
входных данных может помочь при обучении отображения входов на выходы.
В обоих случаях имеют место сложные и не до конца понятные взаимодействия 
между несколькими частями алгоритма машинного обучения.
Менее всего понятны причины регуляризирующего эффекта выбора начальных 
параметров. Когда предобучение только вошло в моду, оно интерпретировалось как 
инициализация модели таким образом, чтобы она сошлась к одному локальному ми-
нимуму, а не к другому. В наши дни локальные минимумы уже не считаются серьезной 
проблемой для оптимизации нейронной сети. Мы знаем, что стандартные процедуры 
обучения нейронных сетей обычно не достигают критических точек. Остается воз-
можность, что предобучение инициализирует модель так, что она окажется в точке, 
которая иначе была бы недоступна, – например, внутри области, окруженной участ-
ками, в которых функция стоимости изменяется от примера к примеру так сильно, 
что мини-пакеты дают лишь очень зашумленную оценку градиента, или участками, 
где матрица Гессе так плохо обусловлена, что величина шага в методах градиентного 
спуска должна быть очень малой. Однако у нас нет уверенности в том, какие именно 
аспекты предобученных параметров сохраняются на этапе обучения с учителем. Это 
одна из причин, по которой в современных подходах обучение с учителем и без учи-
теля обычно используется одновременно, а не в виде двух этапов, следующих друг 
за другом. Сложностей, связанных с тем, как в ходе оптимизации на этапе обучения 
с учителем сохраняется информация, полученная на этапе обучения без учителя, 
можно также избежать, попросту заморозив параметры экстракторов признаков и ис-
пользуя обучение с учителем только для того, чтобы добавить классификатор поверх 
уже обученных признаков.
Вторая идея – что алгоритм обучения может использовать информацию, найден-
ную на этапе обучения без учителя, для повышения качества на этапе обучения с учи-
телем, – более понятна. Дело в том, что признаки, полезные в задаче обучения без 
учителя, могут пригодиться и в задаче обучения с учителем. Например, порождаю-
щая модель изображений автомобилей и мотоциклов должна знать о существовании 
колес и о том, сколько их должно быть. Если нам повезет, то представление колес 
будет таким, что у модели, обучаемой с учителем, будет к нему удобный доступ. Пока 
у этого предположения нет теоретического, математически строгого обоснования, по-
этому не всегда можно предсказать, какие задачи больше всего выигрывают от такого 
предобучения без учителя. Многие аспекты этого подхода сильно зависят от того, 
какая конкретно модель используется. Например, если мы хотим добавить линей-
ный классификатор поверх предобученных признаков, то признаки нужно выбирать 
так, чтобы классы были линейно разделимы. Подобные свойства часто возникают 
естественным образом, но это не обязательно. И это еще одна причина, по которой 
предпочтительно одновременное обучение с учителем и без учителя, – ограничения, 
налагаемые выходным слоем, естественно включаются с самого начала.
Если рассматривать предобучение без учителя как обучение представления, то 
можно ожидать, что оно будет более эффективным, когда начальное представление 
плохое. Яркий пример – погружения слов. Слова, представленные унитарными век-
торами, не очень информативны, потому что любые два различных унитарных век-



Download 14,23 Mb.

Do'stlaringiz bilan baham:
1   ...   547   548   549   550   551   552   553   554   ...   779




Ma'lumotlar bazasi mualliflik huquqi bilan himoyalangan ©hozir.org 2024
ma'muriyatiga murojaat qiling

kiriting | ro'yxatdan o'tish
    Bosh sahifa
юртда тантана
Боғда битган
Бугун юртда
Эшитганлар жилманглар
Эшитмадим деманглар
битган бодомлар
Yangiariq tumani
qitish marakazi
Raqamli texnologiyalar
ilishida muhokamadan
tasdiqqa tavsiya
tavsiya etilgan
iqtisodiyot kafedrasi
steiermarkischen landesregierung
asarlaringizni yuboring
o'zingizning asarlaringizni
Iltimos faqat
faqat o'zingizning
steierm rkischen
landesregierung fachabteilung
rkischen landesregierung
hamshira loyihasi
loyihasi mavsum
faolyatining oqibatlari
asosiy adabiyotlar
fakulteti ahborot
ahborot havfsizligi
havfsizligi kafedrasi
fanidan bo’yicha
fakulteti iqtisodiyot
boshqaruv fakulteti
chiqarishda boshqaruv
ishlab chiqarishda
iqtisodiyot fakultet
multiservis tarmoqlari
fanidan asosiy
Uzbek fanidan
mavzulari potok
asosidagi multiservis
'aliyyil a'ziym
billahil 'aliyyil
illaa billahil
quvvata illaa
falah' deganida
Kompyuter savodxonligi
bo’yicha mustaqil
'alal falah'
Hayya 'alal
'alas soloh
Hayya 'alas
mavsum boyicha


yuklab olish