450
Обучение представлений
Важный вопрос – каким образом предобучение без учителя играет роль регуляри-
затора? Одна из гипотез состоит в том, что предобучение поощряет алгоритм обуче-
ния находить признаки, связанные с истинными причинами порождения наблюдае-
мых данных. Эта важная идея, положенная в основу многих других алгоритмов,
помимо предобучения без учителя, описана более подробно в разделе 15.3.
По сравнению с другими видами обучения без учителя, у предобучения есть не-
достаток – наличие двух раздельных фаз обучения. Многие стратегии регуляриза-
ции позволяют пользователю управлять степенью регуляризации путем изменения
единственного гиперпараметра. У предобучения без учителя нет очевидного способа
управлять степенью регуляризации, возникающей вследствие этапа обучения без
учителя. Вместо этого есть очень много гиперпараметров, эффект которых можно из-
мерить по факту, но зачастую трудно предсказать заранее. Когда вместо предобуче ния
мы производим обучение с учителем и без учителя одновременно, существует един-
ственный гиперпараметр – обычно коэффициент, назначаемый стоимости обуче ния
без учителя, – который определяет, насколько сильно целевая функция без учителя
будет регуляризировать модель, обучаемую с учителем. Уменьшение этого коэффи-
циента предсказуемо приводит к ослаблению регуляризации. В случае же предобуче-
ния без учителя не существует способа гибко подстраивать степень регуляризации –
либо для модели, обучаемой с учителем, берутся предобученные начальные значения
параметров, либо нет.
Еще один недостаток двух раздельных фаз обучения состоит в том, что у каждой
фазы свои гиперпараметры. Качество второй фазы обычно невозможно предсказать
на первой, поэтому между предложением гиперпараметров для первой фазы и их
обновл ением по результатам второй фазы проходит длительное время. Теоретически
самый правильный подход – использовать для выбора гиперпараметров фазы предо-
бучения ошибку на контрольном наборе, как описано в работе Larochelle et al. (2009).
Но на практике некоторые гиперпараметры, например число итераций предобуче-
ния, удобнее задавать на этапе предобучения, применяя раннюю остановку к целевой
функции без учителя, – это хоть и не идеально, но вычислительно обходится куда
дешевле, чем использование целевой функции с учителем.
В наши дни от предобучения без учителя отказались почти везде, кроме обработки
естественных языков, где естественное представление слов в виде унитарных векто-
ров не несет никакой информации о сходстве и при этом доступны очень большие
неразмеченные наборы данных. Преимущество предобучения в этом случае – воз-
можность обучить модель один раз на огромном неразмеченном наборе (скажем, кор-
пусе текстов, содержащем миллиарды слов), найти хорошее представление (обычно
слов, но, возможно, и предложений), а затем пользоваться этим представлением или
дополнительно настроить его для решения задачи обучения с учителем, в которой
обучаю щий набор содержит гораздо меньше примеров. Впервые этот подход был
апробирован в работах Collobert and Weston (2008b), Тurian et al. (2010) и Collobert
et al. (2011a) и до сих пор широко применяется.
Глубокие сети, основанные на обучении с учителем и регуляризации путем проре-
живания или пакетной нормировки, во многих задачах не уступают человеку, но только
при наличии очень больших размеченных наборов данных. Те же методы превосходят
предобучение без учителя на наборах данных среднего размера, например CIFAR-10
и MNISТ, насчитывающих примерно по 5000 помеченных примеров на каждый класс.
На совсем небольших наборах, таких, например, как данные об альтернативном сплай-
Перенос обучения и адаптация домена
451
синге, байесовские методы оказываются лучше тех, что основаны на предобуче нии без
учителя (Srivastava, 2013). Потому-то популярность предобучения без учителя и со-
шла на нет. Тем не менее оно остается важной вехой в истории глубокого обучения
и продолжает оказывать влияние на современные подходы. Идея предобучения была
обобщена на
Do'stlaringiz bilan baham: |