Емкость, переобучение и недообучение
109
Теория статистического обучения предлагает различные способы количественного
выражения емкости модели. Самый известный из них –
размерность Вапника–Чер-
воненкиса
,
или VC-размерность, измеряющая емкость бинарного классификатора.
VC-размерность определяется как наибольшее возможное значение
m
– такое, что
существует обучающий набор
m
разных точек
x
, которые классификатор может по-
метить произвольным образом.
Количественное выражение емкости модели позволяет теории статистического об-
учения делает количественные предсказания. Самые важные результаты этой теории
показывают, что расхождение между ошибкой обучения и ошибкой обобщения огра-
ничено сверху величиной, которая растет с ростом емкости модели, но убывает по
мере увеличения количества обучающих примеров (Vapnik and Chervonenkis, 1971;
Vapnik, 1982; Blumer et al., 1989; Vapnik, 1995). Наличие такого ограничения является
теоретическим обоснованием работоспособности алгоритмов машинного обуче ния,
но на практике используется редко в применении к алгоритмам глубокого обуче-
ния. Отчасти это связано с
нестрогостью оценки границ, а отчасти со сложностью
определения емкости алгоритмов глубокого обучения. Последняя проблема особен-
но трудна, потому что эффективная емкость ограничена возможностями алгоритма
оптимизации, а у нас мало теоретических результатов об общих задачах невыпуклой
оптимизации, встречающихся в глубоком обучении.
Следует помнить, что хотя лучшая способность к обобщению (малым разрывом
между ошибками обучения и тестирования) свойственна скорее простым функциям,
нам все равно приходится выбирать достаточно сложные гипотезы для достижения
малой ошибки обучения. В типичном случае ошибка обучения убывает, асимпто-
тически приближаясь к минимально возможной ошибке с
ростом емкости модели
(в предположении, что у меры ошибки есть минимальное значение). А типичная
ошибка обобщения
имеет форму U-образной кривой, как показано на рис. 5.3.
Емкость
Ошибка
Зона
недообучения
Зона
переобучения
Ошибка обучения
Ошибка обобщения
0
Разрыв
Оптимальная
емкость
Рис. 5.3
Типичная связь между емкостью и ошибкой. Ошибки обучения
и тестирования ведут себя по-разному. В левой части графика обе ошибки
принимают большие значения. Это режим недообучения. По мере увеличе-
ния емкости ошибка обучения снижается, а разрыв между ошибкой обуче-
ния и обобщения растет. В конечном итоге величина разрыва перевешива-
ет уменьшение ошибки обучения, и мы попадаем в режим переобучения,
где емкость слишком сильно превышает оптимальную емкость