Я. Гудфеллоу, И. Бенджио, А. Курвилль



Download 14,23 Mb.
Pdf ko'rish
bet391/779
Sana14.06.2022
Hajmi14,23 Mb.
#671946
TuriКнига
1   ...   387   388   389   390   391   392   393   394   ...   779
Bog'liq
Гудфеллоу Я , Бенджио И , Курвилль А Глубокое обучение

Глава 
10
Моделирование
последовательностей:
рекуррентные
и рекурсивные сети
Рекуррентные нейронные сети
, или РНС (Rumelhart et al., 1986a), – это семейство 
нейронных сетей для обработки последовательных данных. Если сверточная сеть 
предназначена для обработки сетки значений 
X
типа изображения, то рекуррент-
ная нейронная сеть предназначена для обработки последовательности значений 
x
(1)
, …, 
x
(
τ
)
. Если сверточная сеть легко масштабируется на изображения большой ши-
рины и высоты, а некоторые сети даже могут обрабатывать изображения перемен-
ного размера, то рекуррентная сеть масштабируется на гораздо более длинные по-
следовательности, чем было бы практически возможно для неспециализированных 
нейронных сетей. Большинство рекуррентных сетей способно также обрабатывать 
последовательности переменной длины.
Для перехода от многослойных сетей к рекуррентным мы воспользуемся одной 
из ранних идей машинного обучения и статистического моделирования, появившей-
ся еще в 1980-е годы: разделение параметров между различными частями модели. 
Разделение параметров позволяет применить модель к примерам различной формы 
(в данном случае – длины) и выполнить для них обобщение. Если бы для каждого 
временного индекса были отдельные параметры, то мы не смогли бы ни обобщить 
модель на длины последовательностей, не встречавшиеся на этапе обучения, ни рас-
пространить статистическую силу на последовательности разной длины и на разные 
моменты времени. Такое разделение особенно важно, если некоторая часть инфор-
мации может встречаться в нескольких местах последовательности. Например, рас-
смотрим два предложения: «Я ездил в Непал в 2009 году» и «В 2009 году я ездил 
в Непал». Когда мы просим модель прочитать каждое предложение и выделить год, 
в котором рассказчик ездил в Непал, мы ожидаем получить 2009 вне зависимости от 
того, находится интересующая нас информация в шестом или во втором слове. Пред-
положим, что мы обучили сеть прямого распространения обрабатывать предложе-
ния фиксированной длины. В традиционной полносвязной сети были бы отдельные 
параметры для каждого входного признака, поэтому потребовалось бы обучать всем 


Развертка графа вычислений 

317
правилам языка отдельно в каждой позиции в предложении. А в рекуррентной ней-
ронной сети одни и те же веса разделяются между несколькими временными шагами. 
Родственная идея – применить свертку к одномерной временной последователь-
ности. Такой сверточный подход лежит в основе нейронных сетей с временной за-
держкой (Lang and Hinton, 1988; Waibel et al., 1989; Lang et al., 1990). Операция сверт-
ки позволяет сети разделять параметры во времени, но является «мелкой». На выходе 
свертки получается последовательность, каждый член которой – функция от неболь-
шого числа соседних членов входной последовательности. Идея разделения парамет-
ров проявляется в применении одного и того же ядра свертки на каждом временном 
шаге. В рекуррентных сетях разделение параметров происходит по-другому. Каждый 
выходной член – функция предыдущих выходных членов и порождается с помощью 
применения одного и того же правила обновления к предыдущим членам. Такая ре-
куррентная формулировка дает возможность разделять параметры в очень глубоком 
графе вычислений.
Для простоты изложения будем считать, что РНС воздействует на последователь-
ность векторов 
x
(
t
)
с индексом временного шага 
t
в диапазоне от 1 до 
τ
. На практике 
рекуррентные сети обычно применяются к мини-пакетам таких последовательностей 
с разной длиной последовательности 
τ
для каждого элемента мини-пакета. Для прос-
тоты обозначений мы опускаем индексы мини-пакетов. Кроме того, индекс времен-
ного шага необязательно буквально соответствует течению времени в реальном мире. 
Иногда это просто позиция внутри последовательности. РНС можно также применять 
к двумерным пространственным данным типа изображений, а если речь идет о дан-
ных, в которых участвует время, то в сети могут существовать связи, ведущие назад во 
времени, при условии что вся последовательность известна до передачи ее сети.
В этой главе мы обобщим идею графа вычислений, включив в него циклы. Циклы 
представляют влияние текущего значения переменной на ее же значение на будущем 
временном шаге. С помощью таких графов вычислений можно определять рекур-
рентные нейронные сети. Затем мы опишем различные способы построения, обуче-
ния и использования рекуррентных нейронных сетей.
За дополнительными сведениями о рекуррентных нейронных сетях отсылаем чи-
тателя к книге Graves (2012).

Download 14,23 Mb.

Do'stlaringiz bilan baham:
1   ...   387   388   389   390   391   392   393   394   ...   779




Ma'lumotlar bazasi mualliflik huquqi bilan himoyalangan ©hozir.org 2024
ma'muriyatiga murojaat qiling

kiriting | ro'yxatdan o'tish
    Bosh sahifa
юртда тантана
Боғда битган
Бугун юртда
Эшитганлар жилманглар
Эшитмадим деманглар
битган бодомлар
Yangiariq tumani
qitish marakazi
Raqamli texnologiyalar
ilishida muhokamadan
tasdiqqa tavsiya
tavsiya etilgan
iqtisodiyot kafedrasi
steiermarkischen landesregierung
asarlaringizni yuboring
o'zingizning asarlaringizni
Iltimos faqat
faqat o'zingizning
steierm rkischen
landesregierung fachabteilung
rkischen landesregierung
hamshira loyihasi
loyihasi mavsum
faolyatining oqibatlari
asosiy adabiyotlar
fakulteti ahborot
ahborot havfsizligi
havfsizligi kafedrasi
fanidan bo’yicha
fakulteti iqtisodiyot
boshqaruv fakulteti
chiqarishda boshqaruv
ishlab chiqarishda
iqtisodiyot fakultet
multiservis tarmoqlari
fanidan asosiy
Uzbek fanidan
mavzulari potok
asosidagi multiservis
'aliyyil a'ziym
billahil 'aliyyil
illaa billahil
quvvata illaa
falah' deganida
Kompyuter savodxonligi
bo’yicha mustaqil
'alal falah'
Hayya 'alal
'alas soloh
Hayya 'alas
mavsum boyicha


yuklab olish