492
Структурные вероятностные модели в глубоком обучении
Еще одно очевидное различие связано с типом связности, который обычно встре-
чается в глубоком обучении. В типичной глубокой графической модели имеются
большие группы блоков, каждый из которых связан с другими группами, так что
взаимодействия между двумя группами можно описать одной матрицей. В традици-
онных графических моделях связей очень мало, и выбор связей для каждой пере-
менной часто проектируется вручную. Проектирование структуры модели тесно
связано с выбором алгоритма вывода. В традиционных подходах целью обычно яв-
ляется практическая реализуемость точного вывода. Если это ограничение слишком
сильное, применяется популярный алгоритм приближенного вывода –
циклическое
распространение доверия
. Оба подхода часто хорошо работают с разреженными
графами. Для сравнения – в моделях, применяемых в глубоком обучении, каждый
видимый блок v
i
обычно связан со многими скрытыми блоками h
j
, так чтобы
h
могло
служить распределенным представлением v
i
(и, быть может, еще нескольких наблю-
даемых переменных). У распределенных представлений много достоинств, но с точки
зрения графических моделей и вычислительной сложности у них есть недостаток –
они обычно приводят к графам, недостаточно разреженным для применения тради-
ционных методов вывода и циклического распространения доверия. Поэтому одно
из самых разительных отличий между графическими моделями вообще и глубокими
графическими моделями состоит в том, что метод циклического распространения до-
верия почти никогда не применяется для глубокого обучения. Вместо этого глубокие
модели проектируются так, чтобы были эффективны алгоритмы выборки по Гиббсу
или вариационного вывода. Еще следует принять во внимание, что поскольку модели
глубокого обучения содержат очень много латентных переменных, на первый план
выходит эффективность численных методов. Это дополнительный (помимо выбо-
ра высокоуровневого алгоритма вывода) довод в пользу группировки блоков в слои
с помощью матрицы, описывающей взаимодействие между двумя слоями. Это по-
зволяет реализовать отдельные шаги алгоритма посредством эффективных операций
умножения матриц или их обобщений на разреженные графы, например перемноже-
ния блочно-диагональных матриц или свертки.
Наконец, для глубокого подхода к графическому моделированию характерна от-
кровенная терпимость к неизвестному. Вместо того чтобы упрощать модель до тех
пор, пока не появится возможность точно вычислить все интересующие нас вели-
чины, мы увеличиваем мощность модели до такой степени, что ее едва-едва можно
обучить или использовать. Часто мы используем модели, маргинальные распределе-
ния которых вычислить невозможно, и довольствуемся возможностью произвести из
них приближенную выборку. Встречаются модели с неразрешимой целевой функци-
ей, которую даже аппроксимировать за разумное время невозможно, но тем не менее
мы умудряемся приближенно обучить ее, если удается эффективно оценить градиент
такой функции. Подход глубокого обучения зачастую состоит в том, чтобы понять,
какой минимум информации абсолютно необходим, а затем придумать, как в крат-
чайшие сроки получить разумную аппроксимацию этой информации.
Do'stlaringiz bilan baham: |