466
Обучение представлений
ство моделей может аппроксимировать широкий класс функций (включающий все
непрерывные функции) с произвольной точностью. Однако необходимое для этого
число скрытых блоков может быть очень велико. Есть теоретические результаты
о выразительной мощности глубоких архитектур, согласно которым существуют се-
мейства функций, допускающих эффективное представление архитектурой глубины
k
, но для этого требуется экспоненциально большое число скрытых блоков (относи-
тельно размера входа) с недостаточной глубиной (2 или
k
– 1).
В разделе 6.4.1 мы видели, что детерминированные сети прямого распространения
являются универсальными аппроксиматорами функций. Многие структурные веро-
ятностные модели с одним скрытым слоем, в т. ч. ограниченные машины Больцмана
и глубокие сети доверия, являются универсальными аппроксиматорами распределе-
ний вероятности (Le Roux and Bengio, 2008, 2010; Montu
far and Ay, 2011; Montu
far,
2014; Krause et al., 2013).
В разделе 6.4.1 мы видели, что достаточно глубокая сеть прямого распростране-
ния может давать экспоненциальный выигрыш по сравнению со слишком мелкой
сетью. Подобные результаты можно получить и для других моделей, например веро-
ятностных. Одна из таких вероятностных моделей –
сеть сумм и произведений
(sum-
product network – SPN) (Poon and Domingos, 2011). В этих моделях используются
полино миальные цепочки для вычисления распределения вероятности множества
случайных величин. В работе Delalleau and Bengio (2011) показано, что существуют
распределения вероятности, для которых требуется некоторая минимальная глуби-
на SPN, чтобы избежать экспоненциально большой модели. В более поздней работе
Martens and Medabalimi (2014) показано, что существуют значительные различия
между любыми двумя конечными значениями глубины SPN и что некоторые огра-
ничения, которые вводят для того, чтобы с SPN можно было практически работать,
могут ограничить их репрезентативную способность.
Интересны также теоретические результаты по выразительной мощности глубо-
ких контуров, связанных со сверточными сетями, которые демонстрируют экспо-
ненциальный выигрыш глубокого контура, даже когда мелкий контур разрешено ис-
пользовать только для аппроксимации функции, вычисленной глубоким контуром
(Cohen et al., 2015). Для сравнения отметим, что в предыдущей теоретической работе
рассматривался только случай, когда мелкий контур обязан точно реплицировать
конкретные функции.
Do'stlaringiz bilan baham: |