x
) =
𝒩
(
y
|
w
T
x
+
b
, 1/
β
),
(8.24)
где
β
– параметр точности. Обычно безопасно инициализировать дисперсию,
или точность, значением 1. Другой подход – предположить, что начальные веса
настолько близки к нулю, что смещения можно задавать, игнорируя влияние ве-
сов, и тогда задать смещения так, чтобы порождалось правильное маргинальное
среднее выхода, а дисперсии сделать равными маргинальной дисперсии выхода
в обучаю щем наборе.
Помимо простых методов инициализации параметров модели постоянными
или случайными значениями, можно для этой цели применить машинное обуче-
ние. Типичная стратегия, обсуждаемая в части III, – инициализировать модель
с учителем параметрами, обученными с помощью модели без учителя на тех же
входных данных. Можно также выполнить обучение с учителем на родственной
задаче. Даже обучение с учителем на никак не связанной задаче может иногда дать
начальные значения, обеспечивающие более быструю, по сравнению со случайной
инициализацией, сходимость. Некоторые стратегии инициализации такого рода
могут приводить к ускоренной сходимости и лучшей обобщаемости, потому что
в них закодирована информация о распределении начальных параметров модели.
Другие дают хорошие результаты, по всей видимости, из-за того, что выбирают
правильный масштаб параметров или настраивают блоки на вычисление различ-
ных функций.
8.5. Алгоритмы с адаптивной скоростью обучения
Специалисты по нейронным сетям давно поняли, что скорость обучения – один из
самых трудных для установки гиперпараметров, поскольку она существенно влия ет
на качество модели. В разделах 4.3 и 8.2 мы говорили о том, что стоимость зачастую
очень чувствительна в некоторых направлениях пространства параметров и нечув-
ствительна в других. Импульсный алгоритм может в какой-то мере сгладить эти проб-
лемы, но ценой введения другого гиперпараметра. Естественно возникает вопрос, нет
ли какого-то иного способа. Если мы полагаем, что направления чувствительности
почти параллельны осям, то, возможно, имеет смысл задавать скорость обучения от-
дельно для каждого параметра и автоматически адаптировать эти скорости на про-
тяжении всего обучения.
Алгоритм
delta-bar-delta
(Jacobs, 1988) – один из первых эвристических подходов
к адаптации индивидуальных скоростей обучения параметров модели. Он основан
на простой идее: если частная производная функции потерь по данному параметру
модели не меняет знак, то скорость обучения следует увеличить. Если же знак ме-
няется, то скорость следует уменьшить. Конечно, такого рода правило применимо
только к оптимизации на полном пакете.
Do'stlaringiz bilan baham: |