465
Рис. 15.9
Порождающая модель обучилась распределенному пред-
ставлению, которое разделяет концепции пола и ношения очков. Если на-
чать с представления концепции мужчины в очках, затем вычесть вектор,
представляющий концепцию мужчины без очков, и, наконец, прибавить
вектор, представляющий концепцию женщины без очков, то мы получим
вектор, представляющий концепцию женщины в очках. Порождающая мо-
дель корректно декодирует все эти представляющие векторы в изображе-
ния, которые можно распознать как члены правильного класса. Изображе-
ния взяты из работы Radford et al. (2015) с разрешения авторов
15.5. Экспоненциальный выигрыш от глубины
В разделе 6.4.1 мы видели, что многослойные перцептроны являются универсальны-
ми аппроксиматорами и что некоторые функции можно представить экспоненциаль-
но меньшими глубокими сетями, сравнимыми с мелкими сетями. Такое уменьшение
размера модели ведет к улучшению статистической эффективности. В этом разделе
мы опишем обобщение подобных результатов на другие виды моделей с распределен-
ными скрытыми представлениями.
В разделе 15.4 был приведен пример порождающей модели, которая обучилась
факторам, объясняющим изображения лиц: пол человека и ношение очков. Эта по-
рождающая модель была основана на глубокой нейронной сети. Было бы странно
ожидать, что мелкая сеть, например линейная, сможет обучиться сложной связи
между абстрактными объясняющими факторами и пикселями изображения. В этой
и других задачах ИИ факторы, которые выбираются почти независимо друг от друга,
скорее всего, будут очень высокого уровня и связаны с входными данными нелиней-
но. Мы утверждаем, что для этого необходимы
глубокие
распределенные представле-
ния, в которых высокоуровневые признаки (рассматриваемые как функции входа)
или факторы (рассматриваемые как порождающие причины) получаются в резуль-
тате композиции большого числа нелинейностей.
Для многих ситуаций было доказано, что организация вычислений посредством
композиции многих нелинейностей и иерархии повторно используемых признаков
может дать экспоненциальный прирост статистической эффективности помимо экс-
поненциального же прироста за счет использования распределенного представления.
Можно показать, что многие виды сетей (в т. ч. с насыщающими нелинейностями, бу-
левыми вентилями, суммами-произведениями или радиально-базисными блоками)
с одним скрытым слоем являются универсальными аппроксиматорами. Такое семей-
Do'stlaringiz bilan baham: |