Bog'liq Гудфеллоу Я , Бенджио И , Курвилль А Глубокое обучение
229 (7.65)
(7.66)
Подставляя это выражение в уравнение (7.58), получаем softmax-классификатор
с весами
1
/
2
W .
Правило масштабирования весов является точным и в других конфигурациях,
в т. ч. в регрессионных сетях с условно нормальными распределениями на выходе,
а также в глубоких сетях, в скрытых слоях которых нет нелинейностей. Однако для
глубоких моделей с нелинейностями это правило – всего лишь аппроксимация. Хотя
теоретической оценки этой аппроксимации не существует, на практике она часто дает
хорошие результаты. В работе Goodfellow et al. (2013a) экспериментально показано,
что аппроксимация на основе масштабирования весов может работать лучше (в тер-
минах верности классификации), чем аппроксимации методом Монте-Карло ансамб-
левого предиктора. Это справедливо даже тогда, когда для аппроксимации методом
Монте-Карло было разрешено делать выборку из 1000 подсетей. С другой стороны,
в работе Gal and Ghahramani (2015) обнаружено, что для некоторых моделей удается
получить более высокую верность классификации с помощью выборки объемом 20
и аппроксимации методом Монте-Карло. Похоже, что оптимальная аппроксимация
вывода зависит от задачи.
В работе Srivastava et al. (2014) показано, что прореживание эффективнее других
стандартных вычислительно недорогих регуляризаторов: снижения весов, фильтра-
ции с ограничением по норме и разреженной активации. Дальнейшего улучшения
можно добиться, комбинируя прореживание с другими видами регуляризации.
Одно из преимуществ прореживания – вычислительная простота. Применение
прореживания на этапе обучения требует всего
O (
n ) вычислений на каждый пример
на каждое обновление – для генерирования
n случайных двоичных чисел и умноже-
ния их на состояние. В зависимости от реализации может понадобиться также память
объемом
O (
n ) для сохранения этих двоичных чисел до этапа обратного распростра-
нения. Стоимость вывода с помощью обученной модели в расчете на один пример
такая же, как если бы прореживание не использовалось, хотя к накладным расходам
следует отнести стоимость однократного деления весов на 2 до применения вывода
к примерам.
У прореживания есть еще одно важное преимущество: оно не налагает существен-
ных ограничений на тип модели или процедуру обучения. Оно одинаково хорошо
работает практически с любой моделью, если в ней используется распределенное
представление и ее можно обучить методом стохастического градиентного спуска.
Сюда входят нейронные сети прямого распространения, вероятностные модели типа
ограниченных машин Больцмана (Srivastava et al., 2014) и рекуррентные нейронные
сети (Bayer and Osendorfer, 2014; Pascanu et al., 2014a). Многие другие стратегии ре-
гуляризации сравнимой мощности налагают куда более строгие ограничения на ар-
хитектуру модели.
Хотя стоимость одного шага применения прореживания к конкретной модели пре-
небрежимо мала, его общая стоимость для модели в целом может оказаться значи-
тельной. Будучи методом регуляризации, прореживание уменьшает эффективную