Сопоставительное расхождение
ОМБ вычисляет градиенты, применяя алгоритм сопоставительного расхождения (contrastive divergence), который осуществляет выборку для послойного предобучения. Это алгоритм,
106 Основания глубоких сетей
известный также под названием CD-k, минимизирует расхождение Кульбака–Лейблера (между реальным распределением данных и гипотезой), производя выборки на k шагах марковской цепи для вычисления гипотезы.
Реконструкция
Глубокие нейронные сети с предобучением без учителя (ОМБ, автокодировщики) конструируют признаки из непомеченных данных с помощью реконструкции. Веса, найденные в результате предобучения без учителя, используются для ини-циализации весов в других сетях, например в глубоких сетях доверия.
Реконструкция как факторизация матрицы
Реконструкция является задачей факторизации, или разложения, матрицы.
На рис. 3.4 наглядно показана сеть ОМБ, участвующая в реконструкции.
|
|
|
|
|
Новые смещения
|
Видимый
|
Скрытый
|
слой
|
|
слой 1
|
|
|
|
|
Реконструкции –
|
|
|
|
Активации –
|
новый выход
|
|
|
|
новый вход
|
Веса те же самые
Рис. 3.4 Реконструкция с помощью ОМБ
Пояснить, как работает реконструкция в ОМБ, можно на примере набора дан-ных MNIST32 (Mixed National Institute of Standards and Technology), содержащего изображения рукописных цифр. На рис. 3.5 показана выборка из этого набора.
Рис. 3.5 Выборка из набора данных MNIST
http://yann.lecun.com/exdb/mnist/.
Строительные блоки глубоких сетей 107
Обучающий набор MNIST содержит 60 000 записей, а тестовый – 10 000 записей. Если обучить ОМБ на наборе MNIST, то можно будет сделать выборку из обучен-ной сети, чтобы посмотреть33, насколько хорошо она способна реконструировать цифры. На рис. 3.6 показано, как ОМБ постепенно выполняла реконструкцию.
Перекрестная энтропия: 206
Перекрестная энтропия: 140
Перекрестная энтропия: 78
Перекрестная энтропия: 4
Рис. 3.6 Реконструкция цифр из набора MNIST с помощью ОМБ
Если обучающие данные имеют нормальное распределение, то большая их часть концентрируется вокруг среднего, а чем дальше от среднего, тем реже встре-чаются данные. Такое распределение выглядит как колоколообразная кривая. Зная среднее и дисперсию (сигму), мы можем восстановить всю кривую. Но пред-положим, что среднее и дисперсия неизвестны. Тогда нужно высказать о них ги-потезу. Подход, при котором мы случайным образом выбираем эти параметры
сопоставляем получившуюся кривую с оригинальной, работает примерно так же, как функция потерь. Мы измеряем расхождение между двумя распределения-ми вероятности, как измеряем различие между ошибочной и правильной класси-фикацией, – корректируем параметры и пробуем снова.
Do'stlaringiz bilan baham: |