Bog'liq Гудфеллоу Я , Бенджио И , Курвилль А Глубокое обучение
444
Обучение представлений
Например, классы, которые не были линейно разделимыми на входных признаках,
могут стать таковыми в последнем скрытом слое. В принципе, последний слой мо-
жет быть моделью любого вида, например классификатором по ближайшему соседу
(Salakhutdinov and Hinton, 2007a). Признаки в предпоследнем слое должны обучить-
ся различным свойствам в зависимости от типа последнего слоя.
Обучение сетей прямого распространения с учителем не налагает явных условий
на обученные промежуточные признаки. Другие алгоритмы обучения представлений
нередко проектируются так, что форма представления задается явно. Предположим,
к примеру, что мы хотим обучить представление, упрощающее оценку плотности.
Легче поддаются моделированию распределения с большей степенью независимости,
поэтому мы могли бы спроектировать целевую функцию, поощряющую независи-
мость элементов вектора представления
h . Как и у сетей с учителем, у алгоритмов
глубокого обучения без учителя есть главная цель обучения, но в качестве побочного
эффекта они обучаются некоторому представлению. Вне зависимости от способа по-
лучения это представление можно использовать для решения другой задачи. Или же
можно вместе обучить несколько моделей (одни с учителем, другие без), разделяю-
щих общее внутреннее представление. В большинстве проблем обучения представле-
ния приходится выбирать между сохранением как можно более полной информации
о входе и приобретением полезных свойств (таких как независимость).
Обучение представлений особенно интересно, потому что дает способ провести
обуче ние без учителя и с частичным привлечением учителя. Часто у нас имеется
очень много непомеченных обучающих данных и сравнительно мало помеченных.
Обучение с учителем на помеченном подмножестве нередко приводит к сильному
переобучению. Обучение с частичным привлечением учителя дает шанс решить эту
проблему, поскольку производится и на непомеченных данных тоже. То есть мы мо-
жем обучить хорошие представления непомеченных данных, а затем воспользоваться
ими для решения задачи обучения с учителем.
Люди и животные умеют учиться на очень небольшом числе помеченных приме-
ров. Мы пока не знаем, как это получается. Объяснить высокую обучаемость челове-
ка можно было бы разными причинами – например, мозг может пользоваться очень
большими ансамблями классификаторов или техникой байесовского вывода. Попу-
лярна гипотеза, согласно которой мозг способен задействовать механизмы обуче ния
без учителя или с частичным привлечением учителя. Есть много способов с поль-
зой употребить непомеченные данные. В этой главе мы сосредоточимся на гипотезе
о том, что непомеченные данные можно использовать для обучения хорошего пред-
ставления.