Дополнение нулями. Этот гиперпараметр управляет поведением фильтра на границах входной области и влияет на размер выходной области.
Пакетная нормировка и слои
Для ускорения обучения СНС можно нормировать активации предыдущего слоя
каждом пакете17, т. е. применить преобразование, в результате которого средняя активация будет близка к 0.0, а стандартное отклонение – к 1.0.
Было показано, что пакетная нормировка ускоряет обучение (https://github. com/ducha-aiki/caffenet-benchmark/blob/master/batchnorm.md). Применяя норми-
ровку к каждому мини-пакету входных примеров, мы можем задавать гораздо более высокую скорость обучения. Пакетная нормировка18 также уменьшает чув-ствительность обучения к начальным весам и выступает в роли регуляризатора (устраняя необходимость в других видах регуляризации). Пакетная нормировка применялась и в глубоких LSTM-сетях19, которые мы обсудим ниже в этой главе.
Пулинговые слои
Пулинговые слои часто вставляются между соседними сверточными слоями, по-скольку они уменьшают пространственный размер (ширину и высоту) представ-ления данных и тем самым предотвращают переобучение. Пулинговый слой не-зависимо воздействует на каждое сечение входных данных.
Ioffe and Szegedy, 2015. Batch Normalization: Accelerating Deep Network Training by Redu cing Internal Covariate Shift // https://arxiv.org/abs/1502.03167.
https://www.quora.com/Why-does-batch-normalization-help.
Cooijmans et al., 2016. Recurrent Batch Normalization // https://arxiv.org/abs/1603.09025.
Сверточные нейронные сети (СНС) 129
Типичные операции понижающей передискретизации
Чаще всего встречается операция взятия максимума, а следующая по частоте – операция усреднения.
Пулинг с операцией max() называется max-пулингом. Если размер фильтра равен 2 × 2, то max() вычисляет максимум из четырех чисел в области фильтра. На глуби-ну эта операция не влияет.
Пулинговые слои применяют пространственную понижающую передискрети-зацию к входным данным. Это означает, что если входное изображение имело размер 32 × 32 пикселя, то выходное будет меньше по ширине и по высоте (напри-мер, 16 × 16). Чаще всего в пулинговых слоях применяются фильтры 2 × 2 с шагом 2, в результате чего размер входной области уменьшается вдвое по каждому из-мерению. Это значит, что пулинг отбрасывает 75% активаций.
пулинговых слоев нет собственных параметров, но есть дополнительные ги-перпараметры. Отсутствие параметров связано с тем, что вычисляется фиксиро-ванная функция входных данных. К пулинговым слоям обычно не применяется заполнение нулями.
Do'stlaringiz bilan baham: |