эффективная емкость
алгоритма обучения может быть меньше репрезентативной
емкости модели.
Современные идеи об обобщаемости моделей машинного обучения восходят еще
к античным философам, в частности Птолемею. Многие ученые прежних времен
исповедовали принцип экономии, который сейчас больше известен под названием
«
бритва Оккама
» (приблизительно 1287–1347). Этот принцип утверждает, что из
всех гипотез, одинаково хорошо объясняющих наблюдения, следует выбирать «прос-
тейшую». Эта идея была формализована и уточнена в XX веке основателями теории
статистического обучения (Vapnik and Chervonenkis, 1971; Vapnik, 1982; Blumer et al.,
1989; Vapnik, 1995).
Емкость, переобучение и недообучение
109
Теория статистического обучения предлагает различные способы количественного
выражения емкости модели. Самый известный из них –
размерность Вапника–Чер-
воненкиса
, или VC-размерность, измеряющая емкость бинарного классификатора.
VC-размерность определяется как наибольшее возможное значение
m
– такое, что
существует обучающий набор
m
разных точек
x
, которые классификатор может по-
метить произвольным образом.
Количественное выражение емкости модели позволяет теории статистического об-
учения делает количественные предсказания. Самые важные результаты этой теории
показывают, что расхождение между ошибкой обучения и ошибкой обобщения огра-
ничено сверху величиной, которая растет с ростом емкости модели, но убывает по
мере увеличения количества обучающих примеров (Vapnik and Chervonenkis, 1971;
Vapnik, 1982; Blumer et al., 1989; Vapnik, 1995). Наличие такого ограничения является
теоретическим обоснованием работоспособности алгоритмов машинного обуче ния,
но на практике используется редко в применении к алгоритмам глубокого обуче-
ния. Отчасти это связано с нестрогостью оценки границ, а отчасти со сложностью
определения емкости алгоритмов глубокого обучения. Последняя проблема особен-
но трудна, потому что эффективная емкость ограничена возможностями алгоритма
оптимизации, а у нас мало теоретических результатов об общих задачах невыпуклой
оптимизации, встречающихся в глубоком обучении.
Следует помнить, что хотя лучшая способность к обобщению (малым разрывом
между ошибками обучения и тестирования) свойственна скорее простым функциям,
нам все равно приходится выбирать достаточно сложные гипотезы для достижения
малой ошибки обучения. В типичном случае ошибка обучения убывает, асимпто-
тически приближаясь к минимально возможной ошибке с ростом емкости модели
(в предположении, что у меры ошибки есть минимальное значение). А типичная
ошибка обобщения имеет форму U-образной кривой, как показано на рис. 5.3.
Емкость
Ошибка
Зона
недообучения
Зона
переобучения
Ошибка обучения
Ошибка обобщения
0
Разрыв
Оптимальная емкость
Рис. 5.3
Типичная связь между емкостью и ошибкой. Ошибки обучения
и тестирования ведут себя по-разному. В левой части графика обе ошибки
принимают большие значения. Это режим недообучения. По мере увеличе-
ния емкости ошибка обучения снижается, а разрыв между ошибкой обуче-
ния и обобщения растет. В конечном итоге величина разрыва перевешива-
ет уменьшение ошибки обучения, и мы попадаем в режим переобучения,
где емкость слишком сильно превышает оптимальную емкость
Do'stlaringiz bilan baham: |