Рис. 7.9
Иллюстрация основной идеи алгоритма распространения по
касательной (Simard et al., 1992) и классификатора по касательной к много-
образию (Rifai et al., 2011c); тот и другой регуляризируют выходную функ-
цию классификатора
f
(
x
)
. Каждая кривая представляет многообразие
для одного класса, в данном случае они показаны как одномерные много-
образия в двумерном пространстве. На одной кривой мы выбрали точку
и провели два вектора: касательный и нормальный к многообразию клас-
са. В многомерном пространстве касательных и нормальных направлений
много. Мы ожидаем, что функция классификации будет быстро изменяться
в направлении нормали к многообразию и не изменяться при перемеще-
нии вдоль многообразия класса. И алгоритм распространения по каса-
тельной, и классификатор по касательной к многообразию регуляризируют
f
(
x
)
, так чтобы она изменялась не слишком сильно, когда
x
перемещается
вдоль многообразия. Для применения алгоритма распространения по ка-
сательной пользователь должен вручную задать функции, вычисляющие
касательные направления (например, исходя из того, что малый сдвиг не
изменяет класса изображения), а классификатор по касательной к много-
образию оценивает касательные направления, обучая автокодировщик
аппроксимировать обучающие данные. Использование автокодировщиков
для оценивания многообразий рассматривается в главе 14
236
Регуляризация в глубоком обучении
Распространение по касательной также связано с
двойным обратным распрост-
ранением
(Drucker and LeCun, 1992) и состязательным обучением (Szegedy et al.,
2014b; Goodfellow et al., 2014b). Идея двойного обратного распространения – регу-
ляризировать якобиан с целью его уменьшения, тогда как при состязательном обуче-
нии ищутся входы рядом с исходными входами, и модель обучается так, чтобы по-
рождать на них те же самые выходы, что на исходных входах. И распространение по
касательной, и пополнение набора данных с заданными вручную преобразованиями
требуют, чтобы модель была инвариантна относительно заданных направлений из-
менения входных данных. И двойное обратное распространение, и состязательное
обучение требуют, чтобы модель была инвариантна во всех направлениях изменения
входных данных при условии, что изменение мало. Как пополнение набора данных
является неинфинитезимальным вариантом распространения по касательной, так
состязательное обучение – неинфинитезимальный вариант двойного обратного рас-
пространения.
Классификатор по касательной к многообразию (Rifai et al., 2011c) позволяет
обойтись без априорного знания касательных векторов. В главе 14 мы увидим, что
автокодировщики умеют оценивать касательные векторы многообразия. Классифи-
катор использует эту технику, чтобы избежать задания касательных векторов пользо-
вателем. На рис. 14.10 показано, что оценки касательных векторов выходят за рамки
классических инвариантов, вытекающих из геометрии изображений (относительно
параллельного переноса, поворота и масштабирования), и включает факторы, кото-
рые можно найти только в процессе обучения, потому что они зависят от объекта
(например, движущиеся части тела). Поэтому алгоритм классификатора по касатель-
ной к многообразию прост: (1) воспользоваться автокодировщиком, чтобы выявить
структуру многообразия в процессе обучения без учителя, и (2) использовать най-
денные касательные векторы для регуляризации классификатора на базе нейронной
сети, как в алгоритме распространения по касательной (уравнение 7.67).
В этой главе мы описали большинство общих стратегий регуляризации нейронных
сетей. Регуляризация – центральная тема машинного обучения, и потому мы часто
будем возвращаться к ней в других главах. Еще одна важная тема – оптимизация –
будет рассмотрена в следующей главе.
Do'stlaringiz bilan baham: |