Рис. 3.6
Расхождение КЛ несимметрично. Предположим, что мы хо-
тим аппроксимировать распределение
p
(
x
)
другим распределением
q
(
x
)
.
Можно выбирать, что минимизировать:
D
KL
(
p
||
q
)
или
D
KL
(
q
||
p
)
. На рисунке
показаны последствия выбора в случае, когда
p
– смесь двух нормальных
распределений, а
q
– обычное нормальное распределение. Выбор направ-
ления расхождения зависит от задачи. Для одних приложений нужна ап-
проксимация, в которой вероятность высока там, где высока вероятность
истинного распределения, а для других – чтобы была низкая вероятность
там, где низка вероятность истинного распределения. (
Слева
) Результат
минимизации
D
KL
(
p
||
q
)
. В этом случае
q
выбирается так, чтобы была высокая
вероятность там, где высока вероятность
p
. Если p имеет несколько мод, то
q
стремится размазать моды, собрав заключенную в них массу вероятно-
сти. (
Справа
) Результат минимизации
D
KL
(
q
||
p
)
. В этом случае
q
выбирается
так, чтобы была низкая вероятность там, где низка вероятность
p
. Если
p
имеет несколько достаточно далеко отстоящих мод, как на этом рисунке, то
расхождение КЛ достигает минимума, когда выбирается одна мода, чтобы
предотвратить размещение массы вероятности в областях низкой вероят-
ности между модами
p
. На рисунке показан результат, когда
q
выбрано, так
чтобы усилить левую моду. Такое же значение расхождения КЛ можно было
бы получить, выбрав правую моду. Если моды не разделены достаточно вы-
раженной областью малой вероятности, то и при таком выборе направле-
ния расхождения КЛ может произойти размазывание мод
Вместо этого мы можем разделить распределение вероятности на много перемно-
жаемых факторов. Допустим, к примеру, что имеются три случайные величины: a, b
и c. Предположим, что a влияет на b, b влияет на c, но a и c независимы при условии
b. Распределение вероятности всех трех переменных можно представить в виде про-
изведения распределений двух переменных:
p
(
a, b, c) =
p
(a)
p
(b | a)
p
(c | b).
(3.52)
Такая факторизация может существенно уменьшить число параметров, необходи-
мых для описания распределения. Число параметров каждого фактора экспоненци-
ально зависит от числа переменных в нем. Это значит, что стоимость представления
распределения удастся значительно сократить, если мы сможем разложить его в про-
изведение распределений с меньшим числом переменных.
Подобные факторизации можно описывать с помощью графов; под графом здесь
понимается множество вершин, некоторые из которых соединены ребрами. Если
факторизация распределения вероятности представлена в виде графа, то мы называ-
ем его
Do'stlaringiz bilan baham: |