предобучение с учителем
(см. раздел 8.7.4) и стала очень распростра-
ненным подходом к переносу обучения. Предобучение с учителем в контексте пере-
носа обучения популярно (Oquab et al., 2014; Yosinski et al., 2014) в сверточных сетях,
предобучен ных на наборе данных ImageNet. Для таких обученных сетей публику-
ются параметры так же, как в задачах обработки естественных языков публикуются
предобучен ные векторы слов (Collobert et al., 2011a; Mikolov et al., 2013a).
15.2. Перенос обучения и адаптация домена
Термины «перенос обучения» и «адаптация домена» относятся к ситуации, когда
нечто обученное в одной ситуации (например, распределение
P
1
) используется для
улучшения обобщаемости в другой ситуации (например, при распределении
P
2
). Это
обобщение идеи из предыдущего раздела, в котором мы переносили представление
с задачи обучения без учителя на задачу обучения с учителем.
При
переносе обучения
обучаемая модель должна выполнить две или более задач,
но предполагается, что многие факторы, объясняющие вариативность
P
1
, относятся
и к изменениям, которые предстоит уловить для обучения
P
2
. Обычно это интерпре-
тируется в контексте обучения с учителем, когда вход один и тот же, а природа меток
может быть разной. Например, мы можем обучиться чему-то, относящемуся к одно-
му набору зрительных категорий, скажем собакам и кошкам, а затем перейти к дру-
гим категориям, скажем осам и муравьям. Если в первом случае данных (выбранных
из распределения
P
1
) намного больше, то, возможно, имеет смысл обучить представ-
ления, полезные для быстрого обобщения при наличии лишь небольшой выборки из
P
2
. У многих зрительных категорий есть общие особенности: низкоуровневые при-
знаки – границы и формы, эффекты от применения геометрических преобразова-
ний, изменений освещения и т. д. В общем случае перенос обучения, многозадачное
обуче ние (раздел 7.7) и адаптацию домена можно реализовать путем обучения пред-
ставления, если существуют признаки, полезные в различных ситуациях или зада-
чах, которые соответствуют объясняющим факторам, встречающимся в нескольких
ситуациях. Это показано на рис. 7.2, где нижние слои являются общими, а верхние
зависят от задачи.
Но иногда общей для разных задач является семантика выхода, а не входа. На-
пример, система распознавания речи должна порождать правильные предложения
в выходном слое, но предшествующие слои могут распознавать очень разные вари-
анты одних и тех же фонем или субфонемных огласовок, зависящие от говорящего.
В таких случаях разумнее разделять верхние слои нейронной сети и выполнять за-
висящую от задачи предобработку, как показано на рис. 15.2.
Что касается
Do'stlaringiz bilan baham: |