448
Обучение представлений
тора находятся на одинаковом расстоянии друг от друга (корень из 2 по норме
L
2
).
Обучен ные погружения слов естественным образом кодируют сходство между слова-
ми по расстоянию между ними. Поэтому предобучение без учителя особенно полезно
при обработке слов. Для обработки изображений оно не так полезно, быть может,
потому что изображения и так уже принадлежат векторному пространству, в котором
расстояние дает низкокачественный показатель сходства.
Если рассматривать предобучение без учителя как регуляризатор, то можно ожи-
дать, что польза от него будет особенно велика, когда число помеченных примеров
очень мало. Поскольку источником информации для предобучения без учителя явля-
ются непомеченные данные, можно также ожидать, что его качество будет тем лучше,
чем больше непомеченных примеров. Преимущества обучения с частичным привле-
чением учителя в ситуации, когда имеется много непомеченных примеров и мало по-
меченных и предварительно выполняется обучение без учителя, особенно наглядно
проявились в 2011 году, когда методика предобучения без учителя победила в двух
международных соревнованиях по переносу обучения (Mesnil et al., 2011; Goodfellow
et al., 2011), где число помеченных примеров в задаче варьировалось от нескольких
штук до нескольких десятков на каждый класс. Подобные эффекты были также доку-
ментированы по результатам экспериментов, проведенных в строго контролируемых
условиях (Paine et al., 2014).
Возможно, существуют и другие факторы. Например, предобучение без учителя,
скорее всего, особенно полезно, когда обучаемая функция очень сложна. Предобуче-
ние без учителя отличается от регуляризаторов типа снижения весов тем, что не
поощряет обучаемую модель к поиску простой функции, а, скорее, побуждает ее
выявлять функции-признаки, полезные для задачи обучения без учителя. Если ис-
тинные функции сложны и обусловлены регулярностями входного распределения,
то предобуче ние без учителя может оказаться более подходящим регуляризатором.
Теперь оставим эти рассуждения в стороне и проанализируем некоторые ситуа-
ции, когда предобучение без учителя действительно привело к успеху, и объясним,
что известно о его причинах. Предобучение без учителя чаще всего применялось для
улучшения классификаторов и представляет наибольший интерес с точки зрения
уменьшения ошибки на тестовом наборе. Но предобучение без учителя может быть
полезно и в задачах, не связанных с классификацией, оно может повысить качество
оптимизации, а не просто выступать в роли регуляризатора. Например, оно может
уменьшить ошибку реконструкции глубоких автокодировщиков одновременно на
обучающих и на тестовых данных (Hinton and Salakhutdinov, 2006).
В работе Erhan et al. (2010) описано много экспериментов для объяснения несколь-
ких успешных случаев применения предобучения без учителя. Уменьшение обеих
ошибок – обучения и тестирования – можно объяснить попаданием параметров в об-
ласть, которая иначе была бы недоступна. Обучение нейронной сети не детерминиро-
вано и сходится к новой функции при каждом прогоне. Обучение может остановиться
в точке, где градиент оказался мал; в точке, где сработал критерий ранней остановки,
предотвращающий переобучение, или в точке, где градиент велик, но трудно опреде-
лить величину следующего шага из-за стохастичности или плохой обусловленности
матрицы Гесса. Нейронные сети, предобученные без учителя, стабильно останавлива-
ются в одной и той же области пространства функций, тогда как сети без предобуче-
ния всякий раз останавливаются в новой области. На рис. 15.1 это явление показано
наглядно. Область, в которой оказывается предобученная сеть, меньше, и это позво-
Жадное послойное предобучение без учителя
449
ляет предположить, что предобучение уменьшает дисперсию процесса оценивания,
что, в свою очередь, снижает риск серьезного переобучения. Иными словами, благо-
даря предобучению без учителя начальные значения параметров сети оказываются
в такой области, которую уже не могут покинуть, так что результаты обучения более
стабильны и реже получаются совсем уж никуда не годными.
С предобучением
Без предобучения
1500
1000
500
0
–500
–1000
–1500
–4000
1000
–3000
2000
–2000
3000
–1000
4000
0
Do'stlaringiz bilan baham: |