оценкой обобщенного псевдоправ-
518
Преодоление трудностей, связанных со статической суммой
доподобия
(Huang and Ogata, 2002), в которой используется
m
различных множеств
𝕊
(
i
)
,
i
= 1, …,
m
индексов величин, встречающихся вместе слева от вертикальной черты
в выражении условной вероятности. В предельном случае, когда
m
= 1 и
𝕊
(1)
= 1, …,
n
,
обобщенное псевдоправдоподобие сводится к логарифмическому правдоподобию.
В другом предельном случае, когда
m
=
n
и
𝕊
(
i
)
= {
i
}, обобщенное псевдоправдоподобие
сводится к псевдоправдоподобию. Целевая функция обобщенного псевдоправдопо-
добия имеет вид
(18.21)
Качество алгоритмов, основанных на псевдоправдоподобии, сильно зависит от
способа использования модели. Псевдоправдоподобие плохо работает в задачах, где
требуется хорошая модель полного совместного распределения
p
(
x
), таких, напри-
мер, как оценивание плотности или выборка. Оно демонстрирует лучшее качество,
чем максимальное правдоподобие, в задачах, где на этапе обучения требуются только
условные распределения, например для восполнения небольшого числа отсутствую-
щих значений. Методы на основе обобщенного псевдоправдоподобия особенно эф-
фективны, если данные обладают регулярной структурой, позволяющей проектиро-
вать множества индексов
𝕊
, так чтобы улавливались наиболее важные корреляции,
и опускать группы величин, корреляция между которыми пренебрежимо мала. На-
пример, в естественных изображениях пиксели, далеко отстоящие друг от друга
в пространстве, слабо коррелированы, поэтому можно применить метод обобщенного
псевдоправдоподобия, выбирая в качестве
𝕊
небольшое пространственно локализо-
ванное окно.
Слабое место оценки псевдоправдоподобия – невозможность использовать ее сов-
местно с другими аппроксимациями, которые дают только нижнюю границу
p
~(
x
),
например вариационным выводом, рассматриваемым в главе 19. Дело в том, что
p
~ на-
ходится в знаменателе. Нижняя граница знаменателя дает только верхнюю границу
выражения в целом, а максимизация верхней границы не дает никакого выигрыша.
Это затрудняет применение псевдоправдоподобия к таким моделям, как глубокие ма-
шины Больцмана, поскольку вариационные методы – один из преобладающих под-
ходов к приближенному исключению многих слоев скрытых переменных, взаимо-
действующих друг с другом. Тем не менее псевдоправдоподобие находит применение
в глубоком обучении, поскольку его можно использовать для обучения однослойных
моделей или глубоких моделей с помощью приближенных методов вывода, не опи-
рающихся на оценку нижней границы.
Для псевдоправдоподобия характерна гораздо более высокая стоимость одного
шага вычисления градиента, чем для СМП, поскольку приходится явно вычислять
все условные распределения. Но обобщенное псевдоправдоподобие и другие подоб-
ные критерии все же могут хорошо работать, если при обработке каждого примера
вычисляется только одно случайно выбранное условное распределение (Goodfellow
et al., 2013b), так что вычислительная стоимость оказывается сопоставимой с СМП.
Хотя оценка псевдоправдоподобия явно не минимизирует log
Z
, ее тем не менее
можно рассматривать как нечто, похожее на отрицательную фазу. Знаменатели
в каждом условном распределении приводят к тому, что алгоритм обучения подав-
ляет вероятность всех состояний, в которых только одна переменная отличается от
обучающего примера.
Сопоставление рейтингов и сопоставление отношений
519
Теоретический анализ асимптотической эффективности псевдоправдоподобия см.
в работе Marlin and de Freitas (2011).
Do'stlaringiz bilan baham: |