Я. Гудфеллоу, И. Бенджио, А. Курвилль


функциональные производные



Download 14,23 Mb.
Pdf ko'rish
bet676/779
Sana14.06.2022
Hajmi14,23 Mb.
#671946
TuriКнига
1   ...   672   673   674   675   676   677   678   679   ...   779
Bog'liq
Гудфеллоу Я , Бенджио И , Курвилль А Глубокое обучение

функциональные производные
, называемые также 
вариационными произ-
водными
функционала 
J
[
f
] по значениям функции 
f
(
x
) в любой точке 
x
. Функцио-
нальная производная функционала 
J
по значению функции 
f
в точке 
x
обозначается 
(
δ
/
δ
f
(
x
))
J
.
Полная формальная разработка понятия функциональных производных выходит 
за рамки этой книги. Нам достаточно знать, что для дифференцируемой функции 
f
(
x
) и дифференцируемой функции 
g
(
y

x
) с непрерывными производными справед-
ливо тождество
(19.46)
Чтобы понять интуитивный смысл этого тождества, представим себе, что 
f
(
x
) – 
вектор с несчетным множеством элементов, индексированный вещественным век-
тором 
x
. При таком (не вполне полном) взгляде приведенное выше тождество не 
отличается от того, что мы имели бы для вектора 
θ
∈ ℝ
n
, индексированного положи-
тельными целыми числами:
(19.47)
Многие результаты в литературе по машинному обучению изложены в терминах 
более общего 
уравнения Эйлера–Лагранжа
, в котором 
g
может зависеть не только от 
значения 
f
, но и от производных 
f
, но нам такая общая форма не понадобится.
Для оптимизации функции относительно вектора мы вычисляем градиент этой 
функции по вектору, приравниваем все элементы градиента к нулю и решаем полу-
чившуюся систему уравнений. Точно так же для оптимизации функционала следует 
искать функцию из системы уравнений, выражающей равенство нулю функциональ-
ных производных в каждой точке.
В качестве примера рассмотрим задачу о нахождении функции распределения ве-
роятности от 
x
∈ ℝ
с минимальной дифференциальной энтропией. Напомним, что 
энтропия распределения вероятности 
p
(
x
) определяется формулой
H
[
p
] = –
𝔼
x
log 
p
(
x
). 
(19.48)
В непрерывном случае математическое ожидание – это интеграл:
H
[
p
] = –

p
(
x
) log 
p
(
x
)
dx

(19.49)
Мы не можем просто максимизировать 
H
[
p
] относительно функции 
p
(
x
), потому 
что результатом может оказаться функция, не являющаяся распределением вероят-
ности. Поэтому нам придется воспользоваться множителями Лагранжа, чтобы доба-
вить ограничение: интеграл 
p
(
x
) должен быть равен 1. Кроме того, энтропия должна 
неограниченно возрастать с ростом дисперсии. Из-за этого вопрос о распределении 
с максимальной энтропией становится неинтересным. Вместо него зададимся во-
просом о том, какое распределение имеет наибольшую энтропию при фиксирован-


Вариационный вывод и обучение 

543
ной дисперсии 
σ
2
. Наконец, задача недетерминированная, потому что распределение 
можно произвольно сдвинуть, не меняя энтропию. Чтобы получить единственное ре-
шение, добавим еще ограничение, что среднее значение распределения должно быть 
равно 
μ
. Функционал Лагранжа для этой задачи оптимизации имеет вид

[
p
] = 
λ
1
(

p
(
x
)
dx
– 1) + 
λ
2
(
𝔼
[
x
] – 
μ
) + 
λ
3
(
𝔼
[(
x
– 
μ
)
2
] – 
σ
2
) + 
H
[
p

(19.50)


(
λ

p
(
x
) + 
λ

p
(
x
)
x

λ

p
(
x
)(
x
– 
μ
)
2
– 
p
(
x
)log 
p
(
x
))
dx
– 
λ
1
– 
μ
λ
2
– 
σ
2
λ
3

(19.51)
Для минимизации лагранжиана относительно 
p
приравняем функциональные 
производные к нулю:
(19.52)
Это условие сообщает нам о функциональной форме 
p
(
x
). После простых алгеб-
раических преобразований получаем
p
(
x
) = exp(
λ
1

λ
2
x

λ
3
(
x
– 
μ
)
2
– 1). 
(19.53)
Мы нигде не предполагали, что функциональная форма 
p
(
x
) именно такова, это 
выражение получилось в результате аналитической минимизации функционала. 
Чтобы довести до конца решение задачи минимизации, необходимо выбрать такие 
значения 
λ
, при которых удовлетворяются все ограничения. Мы вольны выбирать 
любые значения 
λ
, т. к. градиент лагранжиана по переменным 
λ
равен 0, коль ско-
ро удовлетворяются ограничения. Чтобы удовлетворить все ограничения, положим
λ
1
= 1 – log 
σ

_
2
π

λ
2
= 0, 
λ

= –1/(2
σ
2
). Тогда получится
p
(
x
) = 
𝒩
(
x

μ

σ
2
). 
(19.54)
Это одна из причин использования нормального распределения в случае, когда ис-
тинное неизвестно. Поскольку энтропия нормального распределения максимальна, 
такое предположение накладывает наименее строгую структуру.
Исследуя критические точки функционала Лагранжа для энтропии, мы нашли 
только одну такую точку, соответствующую максимуму энтропии при фиксирован-
ной дисперсии. А что сказать о функции распределения вероятности, которая ми-
нимизирует энтропию? Почему мы не нашли вторую критическую точку, соответ-
ствующую минимуму? Причина в том, что не существует функции, доставляющей 
минимум энтропии. Если увеличивать плотность вероятности в двух точках, 
x

μ 

σ
и 
x

μ 
– 
σ
, уменьшая ее во всех остальных 
x
, то энтропия будет уменьшаться, а дис-
персия останется постоянной. Однако для функции, которая сосредоточивает всю 
массу в двух точках, делая ее равной 0 в остальных, интеграл не равен 1, и она не 
является допустимым распределением вероятности. Поэтому не существует рас-
пределения вероятности с минимальной энтропией, как не существует наименьше-
го положительного вещественного числа. Мы можем лишь сказать, что существует 
последовательность распределений вероятности, сходящаяся к концентрации массы 
всего в двух точках. Этот вырожденный случай можно описать как смесь распределе-
ний Дирака. Поскольку распределение Дирака не описывается одной функцией рас-
пределения вероятности, то никакая смесь распределений Дирака не соответствует 
одной конкретной точке в пространстве функций. Такие распределения невидимы 
нашему методу поиска точек, в которых функциональные производные равны 0. Это 



Download 14,23 Mb.

Do'stlaringiz bilan baham:
1   ...   672   673   674   675   676   677   678   679   ...   779




Ma'lumotlar bazasi mualliflik huquqi bilan himoyalangan ©hozir.org 2024
ma'muriyatiga murojaat qiling

kiriting | ro'yxatdan o'tish
    Bosh sahifa
юртда тантана
Боғда битган
Бугун юртда
Эшитганлар жилманглар
Эшитмадим деманглар
битган бодомлар
Yangiariq tumani
qitish marakazi
Raqamli texnologiyalar
ilishida muhokamadan
tasdiqqa tavsiya
tavsiya etilgan
iqtisodiyot kafedrasi
steiermarkischen landesregierung
asarlaringizni yuboring
o'zingizning asarlaringizni
Iltimos faqat
faqat o'zingizning
steierm rkischen
landesregierung fachabteilung
rkischen landesregierung
hamshira loyihasi
loyihasi mavsum
faolyatining oqibatlari
asosiy adabiyotlar
fakulteti ahborot
ahborot havfsizligi
havfsizligi kafedrasi
fanidan bo’yicha
fakulteti iqtisodiyot
boshqaruv fakulteti
chiqarishda boshqaruv
ishlab chiqarishda
iqtisodiyot fakultet
multiservis tarmoqlari
fanidan asosiy
Uzbek fanidan
mavzulari potok
asosidagi multiservis
'aliyyil a'ziym
billahil 'aliyyil
illaa billahil
quvvata illaa
falah' deganida
Kompyuter savodxonligi
bo’yicha mustaqil
'alal falah'
Hayya 'alal
'alas soloh
Hayya 'alas
mavsum boyicha


yuklab olish