Рис. 16.1
Вероятностное моделирование естественных изображений.
(
Сверху
) Примеры цветных изображений 32
×
32 из набора данных CIFAR-10
(Krizhevsky and Hinton, 2009). (
Снизу
) Выборка из структурной вероятност-
ной модели, обученной на этом наборе данных. Каждый элемент выборки
находится в той же позиции сетки, что и обучающий пример, ближайший
к нему в евклидовом пространстве. Это сопоставление показывает, что
модель действительно синтезирует новые изображения, а не просто за-
поминает обучающие данные. Контрастность обоих наборов изображений
подобра на для дисплея. Рисунок взят из работы Courville et al. (2011)
Моделирование нетривиального распределения тысяч или миллионов случайных
величин – трудная задача как с вычислительной, так и со статистической точки зре-
ния. Предположим, что требуется моделировать только бинарные величины. Даже
этот простейший случай вызывает, на первый взгляд, непреодолимые сложности. Для
небольшого цветного (RGB) изображения размера 32
×
32 существуют 2
3072
возможных
бинарных изображений. Это число в 10
800
больше числа атомов во Вселенной.
В общем случае для моделирования случайного вектора
x
, содержащего
n
дискрет-
ных величин, каждая из которых принимает
k
значений, при наивном подходе к пред-
ставлению
P
(
x
) потребуется хранить таблицу вероятностей каждого возможного вы-
хода, т. е.
k
n
параметров!
472
Структурные вероятностные модели в глубоком обучении
Это невозможно по нескольким причинам:
память – стоимость хранения представления.
Для сколько-нибудь больших
n
и
k
в таблице, представляющей распределение, придется хранить слишком
много значений;
статистическая эффективность.
С увеличением числа параметров модели
возрастает и объем обучающих данных, необходимых для выбора значений этих
параметров с помощью статистического оценивателя. Поскольку в табличной
модели число параметров астрономически велико, для ее точной аппроксима-
ции понадобится столь же гигантский обучающий набор. Любая такая модель
окажется сильно переобученной, если не ввести дополнительные предполо-
жения о связях между элементами таблицы (как, например, в возвратных или
сглаженных
n
-граммных моделях, см. раздел 12.4.1);
этап выполнения – стоимость вывода.
Пусть мы хотим произвести вывод, ис-
пользуя модель совместного распределения
P
(
x
) для вычисления какого-то
другого распределения, например маргинального распределения
P
(x
1
) или
услов ного распределения
P
(x
2
| x
1
). Для вычисления этих распределений пона-
добится выполнить суммирование по всей таблице, поэтому стоимость таких
операций так же недопустимо высока, как и стоимость хранения модели;
этап выполнения – стоимость выборки.
Предположим, что требуется про-
извести выборку из модели. Наивный способ – выбрать какое-то значение
u
∼
U
(0, 1), а затем обходить таблицу, складывая значения вероятностей до тех
пор, пока сумма не превзойдет
u
, после чего вернуть в качестве результата эле-
мент в соответствующей позиции таблицы. Но в худшем случае для этого по-
надобится прочитать всю таблицу, так что стоимость этой операции, как и про-
чих, экспоненциально высока.
Проблема табличного подхода в том, что мы явно моделируем все возможные взаи-
модействия между всеми возможными подмножествами величин. Распределения ве-
роятности, встречающиеся в реальных задачах, гораздо проще. Обычно большинство
величин влияет друг на друга только косвенно.
Рассмотрим, к примеру, моделирование времени финиширования команды в эста-
фете. Пусть команда состоит из трех человек: Анна, Борис и Вера. В начале эстафе-
ты палочка находится у Анны, которая начинает бежать по дорожке. Завершив свой
этап, она передает палочку Борису. Борис бежит свой этап и передает палочку Вере,
которой выпал последний этап. Мы можем смоделировать время финиширования
каждого участника команды с помощью непрерывной случайной величины. Время
финиширования Анны не зависит от других участников, поскольку она бежит пер-
вой. Время финиширования Бориса зависит от Анны, потому что Борис не может на-
чать свой этап, пока Анна не придет к финишу. Если Анна прибежит быстрее, то при
прочих равных условиях и Борис финиширует быстрее. Наконец, время финиширо-
вания Веры зависит от обоих ее товарищей по команде. Если Анна бежит медленно,
то и Борис, вероятно, финиширует слишком поздно. Следовательно, Вера поздно
начнет бежать и, скорее всего, поздно придет к финишу. Однако время финиширова-
ния Веры зависит от времени финиширования Анны лишь косвенно – через Бориса.
Если мы уже знаем время финиширования Бориса, то не получим более точной оцен-
ки времени финиширования Веры, узнав, когда финишировала Анна. Таким образом,
для моделирования эстафеты достаточно всего двух взаимодействий: влияние Анны
на Бориса и влияние Бориса на Веру. Третье, косвенное взаимодействие между Анной
и Верой из модели можно исключить.
Применение графов для описания структуры модели
473
Структурные вероятностные модели предлагают формальную систему моделиро-
вания только прямых взаимодействий между случайными величинами. Это позволя-
ет обойтись значительно меньшим числом параметров модели и, следовательно, по-
лучить надежную оценку при меньшем объеме данных. Уменьшение размера модели
также кардинально снижает вычислительную стоимость с точки зрения памяти для
хранения модели, времени выполнения вывода и выборки из модели.
Do'stlaringiz bilan baham: |