474
Структурные вероятностные модели в глубоком обучении
Анна
Борис
Вера
Рис. 16.2
Ориентированная графическая модель эстафеты. Время фи-
ниширования Анны
t
0
влияет на время финиширования Бориса
t
1
, поскольку
Борис не начинает бежать, пока Анна не придет к финишу. Аналогично Вера
начинает бежать только после того, как Борис финиширует, поэтому время
финиширования Бориса
t
1
прямо влияет на время финиширования Веры
t
2
В
нашем примере эстафеты, описываемом графом на рис. 16.2, это означает, что:
p
(t
0
, t
1
, t
2
) =
p
(t
0
)
p
(t
1
| t
0
)
p
(t
2
| t
1
).
(16.2)
Это наше первое знакомство со структурной вероятностной моделью в действии.
Изучив стоимость ее использования, мы
увидим, что структурное моделирование
имеет много преимуществ по сравнению с бесструктурным.
Предположим, что мы дискретизировали интервал времени от нулевой до десятой
минуты, разбив его на 6-секундные промежутки. Тогда каждая из случайных вели-
чин t
0
, t
1
и t
2
может принимать 100 различных значений. Если бы мы попытались
представить
p
(t
0
, t
01
, t
2
)
таблицей, то понадобилось бы хранить 999 999 значений
(100 значений t
0
×
100 значений t
1
×
100 значений t
2
минус 1, поскольку вероятность
одной конфигурации можно не задавать, т. к. сумма всех вероятностей должна быть
равна 1). Если же завести по одной таблице для каждого условного распределения,
то для хранения распределения t
0
нужно 99 значений, для хранения t
1
при условии
t
0
– 9900 значений и столько же для хранения t
2
при условии t
1
. Всего получается
19 899 значений. То есть применение ориентированной графической модели позво-
лило уменьшить число параметров больше чем в 50 раз!
В общем случае для моделирования
n
дискретных величин,
каждая из которых
принимает
k
значений, решение с одной таблицей имеет порядок
O
(
k
n
), как мы виде-
ли раньше. Теперь предположим, что мы построили ориентированную графическую
модель над этими величинами. Если
m
– максимальное число величин по любую
сторону от вертикальной черты в одном условном распределении вероятности, то
стои мость хранения таблиц для ориентированной модели имеет порядок
O
(
k
m
). Если
удастся спроектировать модель, в которой
m
<<
n
, то мы получим очень существен-
ное улучшение.
Иными словами, если у каждой величины в графе мало родителей, то для пред-
ставления распределения нужно очень мало параметров.
Введя дополнительные
ограничения на структуру графа, например потребовав, что он был деревом, мы так-
же сможем гарантировать, что такие операции, как вычисление маргинального или
условного распределения подмножеств величин, производятся эффективно.
Важно понимать, какие виды информации можно закодировать в виде графа, а ка-
кие нельзя. В графе представлены только упрощающие предположения о том, ка-
кие величины условно независимы. Можно также
вводить другие типы упрощаю-
щих предположений. Предположим, к примеру, что Борис всегда бежит одинаково
вне зависимости от результата, показанного Анной. (На практике результат Анны,
скорее всего, влияет на результат Бориса – увидев,
что Анна пробежала необычно
быстро, Борис может воодушевиться и сделать все возможное, чтобы не уступить ей
Применение графов для описания структуры модели
475
или, наоборот, решить, что дело сделано, и бежать спустя рукава). Тогда единственное
влияние Анны на время финиширования Бориса заключается в том, что нужно при-
бавить время Анны к заранее известному времени Бориса. Это наблюдение позволяет
определить модель с
O
(
k
) параметрами вместо
O
(
k
2
). Отметим, однако, что t
0
и t
1
по-
прежнему прямо зависят друг от друга, т. к. t
1
представляет абсолютное время фини-
ширования Бориса, а не время, потраченное им на свой этап. Это значит, что в графе
должна остаться стрелка из t
0
в t
1
. Предположение, что личное время Бориса ни от
чего не зависит, невозможно закодировать в графе с вершинами t
0
, t
1
и t
2
. Вместо этого
мы должны закодировать эту информацию в определении самого условного распре-
деления. Теперь условное распределение не является таблицей с
k
×
k
– 1 элементами,
индексированной величинами t
0
и t
1
, а описывается несколько более сложной фор-
мулой всего с
k
– 1 параметрами. Синтаксис ориентированной графической модели
не налагает никаких ограничений на способ определения условных распределений.
Он лишь определяет, какие случайные величины могут входить в них в качестве ар-
гументов.
Do'stlaringiz bilan baham: