идентифицируемости модели
. Говорят, что модель идентифицируемая,
если существует достаточно большой обучающий набор, который может исключить
все конфигурации параметров модели, кроме одной. Модели с латентными перемен-
ными часто не являются идентифицируемыми, потому что мы можем получить эк-
вивалентные модели, меняя латентные переменные местами. Например, можно было
бы взять нейронную сеть и модифицировать слой 1, заменив входящий вектор весов
для блока
i
входящим векторов весов для блока
j
и наоборот, а затем проделав то же
самое для исходящих векторов весов. Если имеется
m
слоев по
n
блоков в каждом, то
существует
n
!
m
способов упорядочить скрытые блоки. Такой вид неидентифицируе-
мости называется
симметрией пространства весов
.
Помимо симметрии пространства весов, во многих разновидностях нейронных се-
тей есть и другие причины неидентифицируемости. Например, в любой сети с блока-
ми линейной ректификации или maxout-блоками можно умножить все входящие веса
и смещения блока на
α
, одновременно умножив исходящие веса на 1/
α
. Это означает,
что если функция стоимости не включает таких членов, как снижение весов, которые
напрямую зависят от весов, а не от выходов модели, то все локальные минимумы сети
лежат на (
m
×
n
)-мерном гиперболоиде эквивалентных локальных минимумов.
Проблема идентифицируемости модели означает, что функция стоимости нейрон-
ной сети может иметь очень большое, даже несчетное, множество локальных миниму-
мов. Однако все локальные минимумы, проистекающие из неидентифицируемости,
эквивалентны между собой с точки зрения значения функции стоимости. Поэтому
такое проявление невыпуклости не составляет проблемы.
Локальные минимумы становятся проблемой, если значение функции стоимости
в них велико, по сравнению со значением в глобальном минимуме. Можно постро-
ить небольшую нейронную сеть, даже без скрытых блоков, в которой стоимость в ло-
кальных минимумах будет выше, чем в глобальном (Sontag and Sussman, 1989; Brady
et al., 1989; Gori and Tesi, 1992). Если локальные минимумы с высокой стоимостью
встречаются часто, то градиентные алгоритмы оптимизации сталкиваются с серьез-
ной проблемой.
Вопрос о том, много ли локальных минимумов с высокой стоимостью в практиче-
ски интересных сетях и наталкиваются ли на них алгоритмы оптимизации, остается
открытым. В течение многих лет среди практиков бытовало мнение, что локальные
минимумы – распространенная проблема, преследующая оптимизацию нейронных
Do'stlaringiz bilan baham: |