h
|
v
], описывающие наблюдаемые пе-
ременные
v
. Иногда подобные проблемы приходится решать для выполнения других
задач. Часто мы обучаем модели, применяя принцип максимального правдоподобия.
Поскольку
log
p
(
v
) =
𝔼
h
∼
p
(
h
|
v
)
[log
p
(
h
,
v
) – log
p
(
h
|
v
)],
(16.9)
то требуется вычислить
p
(
h
|
v
), чтобы реализовать правило обучения. Все это при-
меры проблем
вывода
, в которых нужно предсказать значения одних переменных по
значениям других или предсказать распределение вероятности одних переменных,
зная значения других.
К сожалению, для большинства интересных глубоких моделей эти проблемы не-
разрешимы, даже если для их упрощения использовать структурную графическую
модель. Граф позволяет представить сложные распределения высокой размерности
с разумным числом параметров, но применяемые в глубоком обучении графы обычно
недостаточно ограничительны, чтобы еще и обеспечить эффективный вывод.
Легко видеть, что вычисление маргинальной вероятности общей графической мо-
дели #P – трудная задача. Класс сложности #P – обобщение класса сложности NP.
Для класса NP нужно только определить, есть ли у задачи решение, и, если есть, найти
какое-нибудь. В случае класса #P требуется подсчитать число решений. Для построе-
ния графической модели в худшем случае рассмотрим определение модели над би-
нарными переменными в задаче выполнимости булевых формул в k-конъюнктивной
нормальной форме (3-SAТ). Мы можем считать, что эти переменные равномерно
распределены, а затем добавить по одной бинарной латентной переменной на каж-
дый дизъюнкт, которая показывает, выполняется ли этот дизъюнкт. Далее добавля-
ется еще одна латентная переменная, показывающая, выполняются ли все дизюнкты.
Это можно сделать, не создавая большую клику, путем построения дерева редукции
латентных переменных, в котором каждый узел дерева сообщает, выполнены ди две
другие переменные. Листьями этого дерева являются переменные для каждого дизъ-
юнкта. Тогда корень дерева сообщает, выполнена ли вся формула. Вследствие рав-
номерного распределения литералов маргинальное распределение корня дерева ре-
дукции определяет долю комбинаций значений переменных, решающих задачу. Это
искусственный пример худшего случая, но NP-трудные графы регулярно возникают
в практических ситуациях.
Следовательно, необходим приближенный вывод. В контексте глубокого обуче-
ния под этим обычно понимают вариационный вывод, когда истинное распределение
Подход глубокого обучения к структурным вероятностным моделям
Do'stlaringiz bilan baham: |