491
p
(
h
|
v
) аппроксимируется максимально близким к нему распределением
q
(
h
|
v
). Эта
и другие техники более подробно описаны в главе 19.
16.7. Подход глубокого обучения
к структурным вероятностным моделям
Специалисты по глубокому обучению на практике пользуются тем же базовым вы-
числительным инструментарием, что и другие специалисты по машинному обучению,
работающие со структурными вероятностными моделями. Но мы обычно по-другому
комбинируем инструменты, так что получающиеся алгоритмы и модели сильно от-
личаются от традиционных графических моделей.
В глубоком обучении не всегда применяются очень уж глубокие графические мо-
дели. Глубина графической модели определяется в терминах ее графа, а не графа вы-
числений. Будем говорить, что глубина латентной переменной
h
i
равна
j
, если крат-
чайший путь от
h
i
к наблюдаемой переменной состоит из
j
шагов. Глубиной модели
называется максимальная глубина по всем таким переменным
h
i
. Так определенная
глубина отличается от глубины, индуцированной графом вычислений. Во многих по-
рождающих моделях, встречающихся в глубоком обучении, латентных переменных
нет вообще или имеется всего один слой таких переменных, но при этом использу-
ются графы вычислений для определения условных распределений внутри модели.
По существу, в глубоком обучении всегда присутствует идея распределенных
представлений. Даже мелкие модели, применяемые для целей глубокого обучения
(например, предобучение мелких моделей, из которых впоследствии будет состав-
лена глубокая), почти всегда содержат один большой слой латентных переменных.
В моделях глубокого обучения латентных переменных, как правило, больше, чем на-
блюдаемых. Сложные нелинейные взаимодействия между переменными имеют вид
непрямых соединений, включающих несколько латентных переменных.
Напротив, в традиционных графических моделях большинство переменных хотя
бы изредка наблюдается, даже если многие из них отсутствуют в некоторых обучаю-
щих примерах. В традиционных моделях по большей части используются члены выс-
шего порядка и техника структурного обучения, чтобы выявить сложные нелиней-
ные взаимодействия между переменными. Если латентные переменные и есть, то их
обычно немного.
Методы проектирования латентных переменных в глубоком обучении также отли-
чаются. Обычно проектировщик не стремится заранее придать латентным перемен-
ным какую-то определенную семантику – алгоритм обучения свободен придумывать
любые концепции, необходимые для моделирования конкретного набора данных.
В большинстве случае человеку нелегко интерпретировать латентные переменные
по завершении обучения, хотя существуют методы визуализации, позволяющие хотя
бы примерно понять, что именно они представляют. Когда латентные переменные
используются в традиционных графических моделях, им часто приписывается впол-
не определенная семантика – тема документа, интеллектуальный уровень студента,
болезнь, вызвавшая у пациента наблюдаемые симптомы, и т. д. Такие модели гораздо
проще для интерпретации и зачастую имеют больше теоретических гарантий, но они
хуже масштабируются на сложные задачи и, в отличие от глубоких моделей, не до-
пускают повторного использования в различных контекстах.
Do'stlaringiz bilan baham: |