проверка по второй
производной
. К сожалению, если
f
′′
(
x
) = 0, то эта проверка не дает однозначного ре-
зультата. В таком случае
x
может быть седловой точкой или находиться на плоском
участке.
В многомерном случае необходимо исследовать все вторые производные функции.
С помощью спектрального разложения матрицы Гессе мы можем обобщить проверку
по второй производной на многомерный случай. В критической точке
∇
x
f
(
x
) = 0, по-
этому путем анализа собственных значений гессиана можно узнать, является ли эта
точка локальным максимумом, локальным минимумом или седловой точкой. Если
матрица Гессе положительно определенная (все ее собственные значения положи-
тельны), то это локальный минимум. В этом можно убедиться, заметив, что вторая
производная по любому направлению должна быть положительна, и сославшись на
проверку по второй производной в одномерном случае. Аналогично, если матрица
Гессе отрицательно определенная (все собственные значения отрицательны), точ-
ка является локальным максимумом. В многомерном случае иногда удается найти
свидетельства в пользу седловой точки. Если имеется хотя бы одно положительное
и хотя бы одно отрицательное собственное значение, то мы знаем, что
x
является ло-
кальным максимумом в одном сечении
f
и локальным минимумом в другом. Пример
приведен на рис. 4.5. Наконец, проверка по второй производной в многомерном слу-
чае может не давать однозначного результата, как и в одномерном. Так бывает, когда
все ненулевые собственные значения одного знака, но имеется хотя бы одно нуле-
вое. Неоднозначность возникает из-за недостаточной информативности одномерной
проверки второй производной в сечении, соответствующем нулевому собственному
значению.
В многомерном случае в одной точке вторые производные по каждому направле-
нию различны. Число обусловленности матрицы Гессе в точке измеряет степень раз-
личия вторых производных. Если число обусловленности велико, то градиентный
спуск будет работать плохо. Это объясняется тем, что в одном направлении производ-
ная растет быстро, а в другом медленно. Метод градиентного спуска не в курсе этого
различия, поэтому не знает, что предпочтительным направлением для исследования
является то, в котором производная дольше остается отрицательной. Из-за плохого
числа обусловленности трудно выбрать хорошую величину шага. Шаг должен быть
достаточно малым, что не пропустить минимум и подниматься вверх во всех направ-
лениях, где кривизна строго положительна. Но обычно это означает, что шаг слишком
мал для заметного продвижения в направлениях с меньшей кривизной. Пример при-
веден на рис. 4.6.
Do'stlaringiz bilan baham: |