Я. Гудфеллоу, И. Бенджио, А. Курвилль

Download 14,23 Mb.

Pdf ko'rish

bet	254/779
Sana	14.06.2022
Hajmi	14,23 Mb.
	#671946
Turi	Книга

1 ... 250 251 252 253 254 255 256 257 ... 779

Bog'liq
Гудфеллоу Я , Бенджио И , Курвилль А Глубокое обучение

w
) +
∇
w
J
(
w
;
X
,
y
),
(7.20)
где sign(
w
) означает, что функция sign применяется к каждому элементу
w
.
Из уравнения (7.20) сразу видно, что эффект
L
1
-регуляризации совсем не такой,
как
L
2
-регуляризации. Теперь вклад регуляризации в градиент уже не масштабирует-
ся линейно с ростом каждого
w
i
, а описывается постоянным слагаемым, знак которого
совпадает с sign(
w
i
). Одним из следствий является тот факт, что мы уже не получим
изящных алгебраических выражений квадратичной аппроксимации
J
(
X
;
y
,
w
), как
в случае
L
2
-регуляризации.
В нашей простой линейной модели имеется квадратичная функция стоимости, ко-
торую можно представить ее рядом Тейлора. Можно вместо этого считать, что это
первые члены ряда Тейлора, аппроксимирующие функцию стоимости более сложной
модели. Градиент в этой конфигурации равен
1
Как и в случае
L
2
-регуляризации, можно было бы сдвигать параметры не к нулю, а к какому-
то значению
w
(
o
)
. Тогда
L
1
-регуляризация свелась бы к добавлению члена
Ω
(
θ
) = ||
w
–
w
(
o
)
||
1
=
=
Σ
i
|
w
i
–
w
i
(
o
)
|.

Штрафы по норме параметров


Download 14,23 Mb.

Do'stlaringiz bilan baham:

1 ... 250 251 252 253 254 255 256 257 ... 779