функциональные производные
, называемые также
вариационными произ-
водными
функционала
J
[
f
] по значениям функции
f
(
x
) в любой точке
x
. Функцио-
нальная производная функционала
J
по значению функции
f
в точке
x
обозначается
(
δ
/
δ
f
(
x
))
J
.
Полная формальная разработка понятия функциональных производных выходит
за рамки этой книги. Нам достаточно знать, что для дифференцируемой функции
f
(
x
) и дифференцируемой функции
g
(
y
,
x
) с непрерывными производными справед-
ливо тождество
(19.46)
Чтобы понять интуитивный смысл этого тождества, представим себе, что
f
(
x
) –
вектор с несчетным множеством элементов, индексированный вещественным век-
тором
x
. При таком (не вполне полном) взгляде приведенное выше тождество не
отличается от того, что мы имели бы для вектора
θ
∈ ℝ
n
, индексированного положи-
тельными целыми числами:
(19.47)
Многие результаты в литературе по машинному обучению изложены в терминах
более общего
уравнения Эйлера–Лагранжа
, в котором
g
может зависеть не только от
значения
f
, но и от производных
f
, но нам такая общая форма не понадобится.
Для оптимизации функции относительно вектора мы вычисляем градиент этой
функции по вектору, приравниваем все элементы градиента к нулю и решаем полу-
чившуюся систему уравнений. Точно так же для оптимизации функционала следует
искать функцию из системы уравнений, выражающей равенство нулю функциональ-
ных производных в каждой точке.
В качестве примера рассмотрим задачу о нахождении функции распределения ве-
роятности от
x
∈ ℝ
с минимальной дифференциальной энтропией. Напомним, что
энтропия распределения вероятности
p
(
x
) определяется формулой
H
[
p
] = –
𝔼
x
log
p
(
x
).
(19.48)
В непрерывном случае математическое ожидание – это интеграл:
H
[
p
] = –
∫
p
(
x
) log
p
(
x
)
dx
.
(19.49)
Мы не можем просто максимизировать
H
[
p
] относительно функции
p
(
x
), потому
что результатом может оказаться функция, не являющаяся распределением вероят-
ности. Поэтому нам придется воспользоваться множителями Лагранжа, чтобы доба-
вить ограничение: интеграл
p
(
x
) должен быть равен 1. Кроме того, энтропия должна
неограниченно возрастать с ростом дисперсии. Из-за этого вопрос о распределении
с максимальной энтропией становится неинтересным. Вместо него зададимся во-
просом о том, какое распределение имеет наибольшую энтропию при фиксирован-
Вариационный вывод и обучение
543
ной дисперсии
σ
2
. Наконец, задача недетерминированная, потому что распределение
можно произвольно сдвинуть, не меняя энтропию. Чтобы получить единственное ре-
шение, добавим еще ограничение, что среднее значение распределения должно быть
равно
μ
. Функционал Лагранжа для этой задачи оптимизации имеет вид
ℒ
[
p
] =
λ
1
(
∫
p
(
x
)
dx
– 1) +
λ
2
(
𝔼
[
x
] –
μ
) +
λ
3
(
𝔼
[(
x
–
μ
)
2
] –
σ
2
) +
H
[
p
]
(19.50)
=
∫
(
λ
1
p
(
x
) +
λ
2
p
(
x
)
x
+
λ
3
p
(
x
)(
x
–
μ
)
2
–
p
(
x
)log
p
(
x
))
dx
–
λ
1
–
μ
λ
2
–
σ
2
λ
3
.
(19.51)
Для минимизации лагранжиана относительно
p
приравняем функциональные
производные к нулю:
(19.52)
Это условие сообщает нам о функциональной форме
p
(
x
). После простых алгеб-
раических преобразований получаем
p
(
x
) = exp(
λ
1
+
λ
2
x
+
λ
3
(
x
–
μ
)
2
– 1).
(19.53)
Мы нигде не предполагали, что функциональная форма
p
(
x
) именно такова, это
выражение получилось в результате аналитической минимизации функционала.
Чтобы довести до конца решение задачи минимизации, необходимо выбрать такие
значения
λ
, при которых удовлетворяются все ограничения. Мы вольны выбирать
любые значения
λ
, т. к. градиент лагранжиана по переменным
λ
равен 0, коль ско-
ро удовлетворяются ограничения. Чтобы удовлетворить все ограничения, положим
λ
1
= 1 – log
σ
√
_
2
π
,
λ
2
= 0,
λ
3
= –1/(2
σ
2
). Тогда получится
p
(
x
) =
𝒩
(
x
;
μ
,
σ
2
).
(19.54)
Это одна из причин использования нормального распределения в случае, когда ис-
тинное неизвестно. Поскольку энтропия нормального распределения максимальна,
такое предположение накладывает наименее строгую структуру.
Исследуя критические точки функционала Лагранжа для энтропии, мы нашли
только одну такую точку, соответствующую максимуму энтропии при фиксирован-
ной дисперсии. А что сказать о функции распределения вероятности, которая ми-
нимизирует энтропию? Почему мы не нашли вторую критическую точку, соответ-
ствующую минимуму? Причина в том, что не существует функции, доставляющей
минимум энтропии. Если увеличивать плотность вероятности в двух точках,
x
=
μ
+
σ
и
x
=
μ
–
σ
, уменьшая ее во всех остальных
x
, то энтропия будет уменьшаться, а дис-
персия останется постоянной. Однако для функции, которая сосредоточивает всю
массу в двух точках, делая ее равной 0 в остальных, интеграл не равен 1, и она не
является допустимым распределением вероятности. Поэтому не существует рас-
пределения вероятности с минимальной энтропией, как не существует наименьше-
го положительного вещественного числа. Мы можем лишь сказать, что существует
последовательность распределений вероятности, сходящаяся к концентрации массы
всего в двух точках. Этот вырожденный случай можно описать как смесь распределе-
ний Дирака. Поскольку распределение Дирака не описывается одной функцией рас-
пределения вероятности, то никакая смесь распределений Дирака не соответствует
одной конкретной точке в пространстве функций. Такие распределения невидимы
нашему методу поиска точек, в которых функциональные производные равны 0. Это
Do'stlaringiz bilan baham: |