Рис. 6.6
Влияние глубины. Эмпирические результаты показывают, что
более глубокие сети лучше обобщаются в задаче распознавания несколь-
ких цифр на фотографиях адресов. Данные взяты из работы Goodfellow et
al. (2014d). Верность на тестовом наборе монотонно растет при увеличении
глубины. На рис. 6.7 приведены результаты контрольного эксперимента,
показывающие, что увеличение других размерных характеристик модели
не дает такого же эффекта
6.4.2. Другие архитектурные подходы
До сих пор мы описывали нейронную сеть как состоящую из простой цепочки слоев,
а основными параметрами были глубина сети и ширина каждого слоя. На практике
нейронные сети куда более разнообразны.
Многие архитектуры нейронных сетей разрабатывались под конкретные задачи.
В главе 9 описаны сверточные сети – специальные архитектуры, применяемые в за-
дачах компьютерного зрения. Сети прямого распространения также обобщаются на
рекуррентные нейронные сети для обработки последовательностей (глава 10), у ко-
торых имеются собственные архитектурные особенности.
178
Глубокие сети прямого распространения
Число параметров
×
10
8
3, сверточная
3, полносвязная
11, сверточная
Верность
на
тестовом
наборе
(в процентах)
97
96
95
94
93
92
91
0,0
0,2
0,4
0,6
0,8
1,0
Рис. 6.7
Влияние числа параметров. Более глубокие модели обычно
работают лучше. Но это не просто потому, что модель больше. Экспери-
мент, описанный в работе Goodfellow et al. (2014d), показывает, что уве-
личение числа параметров в слоях сверточной сети, не сопровождаемое
увеличением ее глубины, далеко не так эффективно с точки зрения обоб-
щения на тестовый набор. В надписях на рисунке указана глубина сети, со-
ответствующей каждой кривой, и что именно отражает кривая: изменение
размера сверточных или полносвязных слоев. Мы видим, что мелкие мо-
дели в этом контексте оказываются переобучены, когда число параметров
составляет примерно 20 миллионов, а качество глубоких продолжает улуч-
шаться вплоть до числа параметров порядка 60 миллионов. Это позволяет
предположить, что глубокая модель выражает полезную гипотезу о прост-
ранстве обучаемых ей функций, а именно она выражает веру в то, функ-
ция должна быть образована композицией многих более простых функций.
Результатом может быть либо обучение представления, составленного из
более простых представлений (например, углы, определяемые в терминах
границ), либо обучение программы, состоящей из последовательных зави-
симых друг от друга шагов (например, сначала найти множество объектов,
затем сегментировать их, отделив друг от друга, и потом распознать их)
В общем случае слои необязательно должны быть соединены в цепочку, хотя это наи-
более распространенная практика. Во многих архитектурах строится главная цепочка,
а затем на нее накладываются специальные свойства, например прямые связи (skip con-
nections), ведущие от слоя
i
к слою
i
+ 2 и выше. Благодаря таким связям упрощается
распространение градиента от выходных слоев к слоям, расположенным ближе к входу.
Еще один ключевой архитектурный вопрос – как именно соединяются между собой
пары слоев. В стандартном слое нейронной сети, описываемом матрицей линейного
преобразования
W
, каждый входной блок соединен с каждым выходным. Но во мно-
гих специальных сетях, описываемых в следующих главах, число соединений меньше,
т. е. каждый блок входного слоя соединен лишь с небольшим подмножеством блоков
выходного слоя. Такие стратегии позволяют уменьшить число параметров и объем вы-
числений, необходимых для обсчета сети, но зачастую сильно зависят от характера
задачи. Например, в сверточных сетях (глава 9) применяется особая структура раз-
реженных соединений, весьма эффективная в задачах компьютерного зрения. В этой
главе трудно дать более конкретный совет касательно архитектуры нейронной сети
общего вида. В последующих главах мы разработаем архитектурные стратегии для
частных случаев, доказавшие свою эффективность в различных предметных областях.
Обратное распространение и другие алгоритмы дифференцирования
Do'stlaringiz bilan baham: |