do
f
(
k
)
=
ℒ
(
X~
)
f
←
f
(
k
)
∘
f
X~
←
f
(
k
)
(
X~
)
end for
if
окончательная-настройка
then
f
←
𝒯
(
f
,
X
,
Y
)
end if
Return
f
С самого начала уточним, что это обсуждение в основном касается только жадного
предобучения без учителя. Существуют другие, принципиально отличающиеся па-
радигмы обучения с частичным привлечением учителя в применении к нейронным
сетям, например виртуальное состязательное обучение, описанное в разделе 7.13.
Можно также обучить автокодировщик или порождающую модель одновременно
с моделью, обученной с учителем. К таким одношаговым подходам можно отнести
дискриминантную ОМБ (Larochelle and Bengio, 2008) и ступенчатую сеть (ladder
network) (Rasmus et al., 2015), в которой целевая функция явно представлена в виде
суммы двух членов (в одном используются только метки, а в другом – только вход-
ные данные).
Жадное послойное предобучение без учителя
447
В предобучении без учителя объединены две идеи. Во-первых, идея о том, что вы-
бор начальных значений параметров глубокой нейронной сети может оказывать суще-
ственное регуляризирующее влияние на модель (и, в меньшей степени, способствовать
улучшению оптимизации). Во-вторых, общая идея о том, что знание о распределении
входных данных может помочь при обучении отображения входов на выходы.
В обоих случаях имеют место сложные и не до конца понятные взаимодействия
между несколькими частями алгоритма машинного обучения.
Менее всего понятны причины регуляризирующего эффекта выбора начальных
параметров. Когда предобучение только вошло в моду, оно интерпретировалось как
инициализация модели таким образом, чтобы она сошлась к одному локальному ми-
нимуму, а не к другому. В наши дни локальные минимумы уже не считаются серьезной
проблемой для оптимизации нейронной сети. Мы знаем, что стандартные процедуры
обучения нейронных сетей обычно не достигают критических точек. Остается воз-
можность, что предобучение инициализирует модель так, что она окажется в точке,
которая иначе была бы недоступна, – например, внутри области, окруженной участ-
ками, в которых функция стоимости изменяется от примера к примеру так сильно,
что мини-пакеты дают лишь очень зашумленную оценку градиента, или участками,
где матрица Гессе так плохо обусловлена, что величина шага в методах градиентного
спуска должна быть очень малой. Однако у нас нет уверенности в том, какие именно
аспекты предобученных параметров сохраняются на этапе обучения с учителем. Это
одна из причин, по которой в современных подходах обучение с учителем и без учи-
теля обычно используется одновременно, а не в виде двух этапов, следующих друг
за другом. Сложностей, связанных с тем, как в ходе оптимизации на этапе обучения
с учителем сохраняется информация, полученная на этапе обучения без учителя,
можно также избежать, попросту заморозив параметры экстракторов признаков и ис-
пользуя обучение с учителем только для того, чтобы добавить классификатор поверх
уже обученных признаков.
Вторая идея – что алгоритм обучения может использовать информацию, найден-
ную на этапе обучения без учителя, для повышения качества на этапе обучения с учи-
телем, – более понятна. Дело в том, что признаки, полезные в задаче обучения без
учителя, могут пригодиться и в задаче обучения с учителем. Например, порождаю-
щая модель изображений автомобилей и мотоциклов должна знать о существовании
колес и о том, сколько их должно быть. Если нам повезет, то представление колес
будет таким, что у модели, обучаемой с учителем, будет к нему удобный доступ. Пока
у этого предположения нет теоретического, математически строгого обоснования, по-
этому не всегда можно предсказать, какие задачи больше всего выигрывают от такого
предобучения без учителя. Многие аспекты этого подхода сильно зависят от того,
какая конкретно модель используется. Например, если мы хотим добавить линей-
ный классификатор поверх предобученных признаков, то признаки нужно выбирать
так, чтобы классы были линейно разделимы. Подобные свойства часто возникают
естественным образом, но это не обязательно. И это еще одна причина, по которой
предпочтительно одновременное обучение с учителем и без учителя, – ограничения,
налагаемые выходным слоем, естественно включаются с самого начала.
Если рассматривать предобучение без учителя как обучение представления, то
можно ожидать, что оно будет более эффективным, когда начальное представление
плохое. Яркий пример – погружения слов. Слова, представленные унитарными век-
торами, не очень информативны, потому что любые два различных унитарных век-
Do'stlaringiz bilan baham: |