464
Обучение представлений
ставление оказалось полезно для интересующей нас задачи, то, возможно, мы могли
бы добиться гораздо лучшей обобщаемости по сравнению с нераспределенным пред-
ставлением, для которого нужно было бы иметь
O
(
r
) примеров, чтобы получить те же
признаки и ассоциированное с ними разбиение пространства входов на
r
областей.
Коль скоро для представления модели требуется меньше примеров, то и подстраи-
ваться придется под меньшее число параметров, а значит, для хорошей обобщаемости
понадобится гораздо меньше примеров.
Дополнительный аргумент, объясняющий хорошую обобщаемость моделей на ос-
нове распределенных представлений, состоит в том, что их емкость остается огра-
ниченной, несмотря на способность кодировать так много различных областей. На-
пример, VC-размерность нейронной сети линейных пороговых блоков равна всего
O
(
w
log
w
), где
w
– количество весов (Sontag, 1998). Это ограничение возникает, по-
тому что хоть мы и можем назначить очень много уникальных кодов пространству
представления, но мы не можем ни использовать абсолютно все пространство кодов,
ни обучить произвольные функции, отображающие пространство представления
h
на выходы
y
с применением линейного классификатора. Поэтому использование
распределенного представления в сочетании с линейным классификатором выра-
жает априорное предположение о том, что подлежащие распознаванию классы ли-
нейно разделимы как функция каузальных факторов, запомненных в
h
. Обычно мы
хотим обучить категории, например множество всех изображений зеленых объектов
или всех изображений автомобилей, но не категории, требующие нелинейной XOR-
логики. Например, нам, как правило, не требуется разбивать данные на класс красных
легковых автомобилей плюс зеленых грузовиков и класс зеленых легковых автомо-
билей плюс красных грузовиков.
Обсуждавшиеся выше идеи были довольно абстрактными, но их можно проверить
экспериментально. В работе Zhou et al. (2015) показано, что скрытые блоки глубо-
кой сверточной сети, обученной на эталонных наборах данных ImageNet и Places,
обучаются признакам, которые часто можно интерпретировать как метки, которые
присвоил бы человек. Конечно, на практике не всегда бывает так, что для признаков,
которым обучились скрытые блоки, в естественном языке имеется простое название,
но интересно наблюдать, как они вырисовываются ближе к верхним уровням лучших
глубоких сетей, применяемых в компьютерном зрении. У таких признаков есть одна
общая черта: можно представить себе, что
каждому из них можно обучиться, не видя
всех конфигураций остальных
. В работе Radford et al. (2015) показано, что порождаю-
щая модель может обучить представление изображений лица, так что различные на-
правления в пространстве представления будут улавливать разные факторы вариа-
тивности. На рис. 15.9 показано, что одно направление в пространстве представления
соответствует полу человека, а другое – наличию очков. Эти признаки были выявле-
ны автоматически, а не заданы заранее. Классификаторам в скрытых блоках не нуж-
ны метки: метод градиентного спуска для заданной целевой функции естественным
образом обучает сеть семантически значимым признакам, если такие признаки нуж-
ны в задаче. Мы можем обучить сеть различию между мужчиной и женщиной или
наличию или отсутствию очков, не пытаясь охарактеризовать все конфигурации
n
– 1
прочих признаков с помощью примеров, покрывающих все комбинации их значений.
Такая форма статистической разделимости и есть то, что открывает возможность
обобщения на новые конфигурации признаков человека, которые не предъявлялись
во время обучения.
Экспоненциальный выигрыш от глубины
Do'stlaringiz bilan baham: |