Я. Гудфеллоу, И. Бенджио, А. Курвилль


h практически реализуемы (в данном примере нет значения  h



Download 14,23 Mb.
Pdf ko'rish
bet571/779
Sana14.06.2022
Hajmi14,23 Mb.
#671946
TuriКнига
1   ...   567   568   569   570   571   572   573   574   ...   779
Bog'liq
Гудфеллоу Я , Бенджио И , Курвилль А Глубокое обучение

h
практически реализуемы (в данном примере нет значения 
h

0

и что линейный классификатор поверх распределенного представления не 
может назначить различные классы всем соседним областям; даже у глу-
бокой сети с линейными порогами VC-размерность имеет порядок только 
O
(
w
log 
w
)
, где 
w
– количество весов (Sontag, 1998). Комбинация мощно-
го слоя представления со слабым слоем классификации может оказаться 
хорошим регуляризатором; классификатору, пытающемуся обучиться раз-
личению концепций «человек» и «не человек», не нужно назначать разные 
классы входам, представленным как «женщина в очках» и «мужчина без 
очков». Благодаря этому ограничению на емкость каждый классификатор 
фокусируется на небольшом числе 
h
i
, а 
h
обучается представлять классы 
линейно разделимым способом


462 

 
Обучение представлений 
Рис. 15.8 

Как алгоритм ближайшего соседа разбивает пространство 
входов на различные области. Этот пример алгоритма обучения, основан-
ного на нераспределенном представлении. У нераспределенных алгорит-
мов может быть разная геометрия, но все они обычно разбивают прост-
ранство входов на несколько областей, 
в каждой из которых свой набор 
параметров
. Преимущество нераспределенного подхода состоит в том, 
что при наличии достаточного числа параметров можно аппроксимировать 
обучающий набор, не решая трудных уравнений оптимизации, посколь-
ку можно 
независимо
выбирать различные выходы для каждой области. 
Недос таток же в том, что такие нераспределенные модели обобщаются 
только локально, исходя из априорного предположения о гладкости, по-
этому трудно обучить сложную функцию, для которой число пиков и впадин 
превышает располагаемое число примеров. Сравните с распределенным 
представлением на рис. 15.7
С различием между распределенным и символическим представлениями связана 
еще одна важная идея: 
возможность обобщения проистекает из разделения атрибу-
тов
между разными концепциями. Как чистые символы слова «
кошка
» и «
собака
» так 
же далеки друг от друга, как два любых других символа. Но если ассоциировать их 
с осмысленным распределенным представлением, то многое из того, что можно ска-
зать о кошках, обобщается на собак – и наоборот. Например, в распределенном пред-
ставлении могут быть атрибуты «
имеет_мех
» и «
число_ног
», и их значения одинаковы 
для погружений слов «
кошка
» и «
собака
». Нейронные языковые модели, работающие 
с распределенными представлениями слов, обобщаются гораздо лучше моделей, ра-
ботающих напрямую с унитарными представлениями слов (см. раздел 2.4). Распреде-
ленные представления индуцируют полезное метрическое пространство, в котором 
расстояние между семантическими близкими концепциями (или входами) мало, – 
этим свойством чисто символические представления не обладают.
Когда и почему использование распределенного представления в качестве части 
алгоритма обучения может дать статистическое преимущество? Когда сложную на 
первый взгляд структуру можно компактно представить с помощью небольшого чис-
ла параметров. Некоторые традиционные нераспределенные алгоритмы обучения 
обобщаются только в предположении гладкости, согласно которому если 
u

v
, то це-
левая функция 
f
, которую предстоит обучить, такова, что 
f
(
u


f
(
v
). Есть много спо-
собов формализовать это предположение, но конечный результат всегда один: если 
имеется пример (
x

y
), для которого известно, что 
f
(
x


y
, то мы выбираем оценку 


Распределенное представление 

463
f
ˆ, которая приблизительно удовлетворяет этим ограничениям и при этом как можно 
меньше изменяется при переходе к близкому входу 
x

ε
. Очевидно, что это предпо-
ложение очень полезно, но оно подвержено проклятию размерности: чтобы обучить 
целевую функцию, которая многократно возрастает и убывает во многих областях
1

число примеров должно быть никак не меньше числа различимых областей. Можно 
считать каждую такую область категорией или символом: если у каждого символа 
(или области) имеется отдельная степень свободы, то мы можем обучить произволь-
ный декодер, отображающий символ в значение. Однако такой декодер не обобщает-
ся на новые символы для новых областей.
Если нам повезет, то у целевой функции может оказаться еще какая-то регуляр-
ность, помимо гладкости. Например, сверточная сеть с max-пулингом способна 
распознать объект вне зависимости от его положения в изображении, пусть даже 
параллельный перенос в пространстве не соответствует гладкому преобразованию 
пространства входов.
Рассмотрим частный случай алгоритма обучения распределенного представления, 
который извлекает бинарные признаки посредством бинаризации линейных функ-
ций входа. Каждый бинарный признак в таком представлении разбивает 

d
на два 
полупространства, как показано на рис. 15.7. Экспоненциально большое число об-
ластей, высекаемых 
n
полупространствами, определяет, сколько областей способно 
различить такое распределенное представление. Сколько же именно областей гене-
рируется конфигурацией 
n
гиперплоскостей в 

d
? Применяя общий результат о пере-
сечении гиперплоскостей (Zaslavsky, 1975), можно показать (Pascanu et al., 2014b), 
что число областей, различимых таким представлением бинарных признаков, равно
(15.4)
Таким образом, мы видим, что число областей экспоненциально зависит от размера 
входа и полиномиально от числа скрытых блоков.
Тем самым мы получаем геометрическое объяснение обобщаемости распределен-
ного представления: имея 
O
(
nd
) параметров (
n
линейных пороговых признаков в 

d
), 
мы можем представить 
O
(
n
d
) различных областей в пространстве входов. Если бы мы 
не делали никаких предположений о данных, использовали представление с одним 
уникальным символом для каждой области и отдельные параметры для каждого сим-
вола для распознавания соответствующей ему области 

d
, то для задания 
O
(
n
d
) обла-
стей потребовалось бы 
O
(
n
d
) примеров. Вообще, аргументацию в пользу распределен-
ного представления можно обобщить на случай, когда вместо линейных пороговых 
блоков используются экстракторы нелинейных, возможно, непрерывных признаков 
для каждого атрибута распределенного представления. В этом случае аргументация 
сводится к тому, что если параметрическое преобразование с 
k
параметрами может 
обучиться распознавать 
r
областей в пространстве входов, где 
k

r
, и если такое пред-
1
Теоретически может потребоваться обучить функцию, поведение которой различается 
в экспоненциально большом числе областей: в 
d
-мерном пространстве, где нужно различать, 
по крайней мере, два значения по каждому измерению, нам может понадобиться функция 
f

которая принимает разные значения в 2
d
областях, для ее обучения необходимо 
O
(2
d
) при-
меров.



Download 14,23 Mb.

Do'stlaringiz bilan baham:
1   ...   567   568   569   570   571   572   573   574   ...   779




Ma'lumotlar bazasi mualliflik huquqi bilan himoyalangan ©hozir.org 2024
ma'muriyatiga murojaat qiling

kiriting | ro'yxatdan o'tish
    Bosh sahifa
юртда тантана
Боғда битган
Бугун юртда
Эшитганлар жилманглар
Эшитмадим деманглар
битган бодомлар
Yangiariq tumani
qitish marakazi
Raqamli texnologiyalar
ilishida muhokamadan
tasdiqqa tavsiya
tavsiya etilgan
iqtisodiyot kafedrasi
steiermarkischen landesregierung
asarlaringizni yuboring
o'zingizning asarlaringizni
Iltimos faqat
faqat o'zingizning
steierm rkischen
landesregierung fachabteilung
rkischen landesregierung
hamshira loyihasi
loyihasi mavsum
faolyatining oqibatlari
asosiy adabiyotlar
fakulteti ahborot
ahborot havfsizligi
havfsizligi kafedrasi
fanidan bo’yicha
fakulteti iqtisodiyot
boshqaruv fakulteti
chiqarishda boshqaruv
ishlab chiqarishda
iqtisodiyot fakultet
multiservis tarmoqlari
fanidan asosiy
Uzbek fanidan
mavzulari potok
asosidagi multiservis
'aliyyil a'ziym
billahil 'aliyyil
illaa billahil
quvvata illaa
falah' deganida
Kompyuter savodxonligi
bo’yicha mustaqil
'alal falah'
Hayya 'alal
'alas soloh
Hayya 'alas
mavsum boyicha


yuklab olish