Bog'liq Гудфеллоу Я , Бенджио И , Курвилль А Глубокое обучение
w ) +
∇
w J (
w ;
X ,
y ),
(7.20)
где sign(
w ) означает, что функция sign применяется к каждому элементу
w .
Из уравнения (7.20) сразу видно, что эффект
L 1
-регуляризации совсем не такой,
как
L 2
-регуляризации. Теперь вклад регуляризации в градиент уже не масштабирует-
ся линейно с ростом каждого
w i , а описывается постоянным слагаемым, знак которого
совпадает с sign(
w i ). Одним из следствий является тот факт, что мы уже не получим
изящных алгебраических выражений квадратичной аппроксимации
J (
X ;
y ,
w ), как
в случае
L 2
-регуляризации.
В нашей простой линейной модели имеется квадратичная функция стоимости, ко-
торую можно представить ее рядом Тейлора. Можно вместо этого считать, что это
первые члены ряда Тейлора, аппроксимирующие функцию стоимости более сложной
модели. Градиент в этой конфигурации равен
1
Как и в случае
L 2
-регуляризации, можно было бы сдвигать параметры не к нулю, а к какому-
то значению
w (
o )
. Тогда
L 1
-регуляризация свелась бы к добавлению члена
Ω
(
θ ) = ||
w –
w (
o )
||
1
=
=
Σ
i |
w i –
w i (
o )
|.