x
. Расхождение предсказаний оракула с истинным
распределением
p
(
x
,
y
) называется
байесовской ошибкой
.
Ошибки обучения и обобщения могут варьироваться в зависимости от размера
обучающего набора. Ожидаемая ошибка обобщения никогда не может увеличиться
с ростом количества обучающих примеров. Для непараметрических моделей увели-
чение объема данных приводит к лучшему обобщению до тех пор, пока не будет до-
стигнута наименьшая возможная ошибка. Любая фиксированная параметрическая
модель емкостью ниже оптимальной асимптотически приближается к значению
ошибки, большему байесовской. Это показано на рис. 5.4. Может случиться и так, что
емкость модели оптимальна, и тем не менее существует большой разрыв между ошиб-
ками обучения и обобщения. В такой ситуации разрыв, возможно, удастся сократить,
увеличив число обучающих примеров.
5.2.1. Теорема об отсутствии бесплатных завтраков
Теория обучения утверждает, что алгоритм может хорошо обобщаться после обуче-
ния на конечном множестве примеров. На первый взгляд, это противоречит базовым
принципам логики. Индуктивное рассуждение, когда общие правила выводятся из
Среднеквадратическая
ошибка
3,5
3,0
2,5
2,0
1,5
1,0
0,5
0,0
20
15
10
5
0
Байесовская ошибка
Обучение (квадратичная)
Тестирование (квадратичная)
Тестирование (оптимальная емкость)
Обучение (оптимальная емкость)
Число обучающих примеров
Число обучающих примеров
10
0
10
0
10
1
10
1
10
2
10
2
10
3
10
3
10
4
10
4
10
5
10
5
Оптимальная емкость (степень многочлена)
Рис. 5.4
Влияние размера обучающего набора данных на ошибки обучения и тести-
рования, а также на оптимальную емкость модели. Мы синтезировали задачу регрес-
сии, добавив умеренный шум к многочлену степени 5, сгенерировали один тестовый
набор, а затем несколько обучающих наборов разного размера. Для каждого размера
было сгенерировано 40 различных обучающих наборов, чтобы нанести на график от-
резки, отражающие 95%-ные доверительные интервалы. (
Вверху
) Среднеквадратиче-
ская ошибка на обучающем и тестовом наборах для двух разных моделей: квадратичной
и полиномиальной, для которой выбрана степень, минимизирующая тестовую ошибку.
Обе модели выражены в замкнутой форме. Для квадратичной модели ошибка обучения
возрастает с ростом обучающего набора, поскольку чем больше набор, тем труднее его
аппроксимировать. Одновременно ошибка тестирования убывает, поскольку меньше не-
правильных гипотез совместимо с обучающими данными. Емкость квадратичной модели
недостаточна для решения этой задачи, поэтому ошибка тестирования асимптотически
приближается к высокому значению. Ошибка тестирования при оптимальной емкости
асимптотически приближается к байесовской ошибке. Ошибка обучения может стать
ниже байесовской, поскольку алгоритм обучения способен запоминать конкретные эк-
земпляры обучающего набора. Когда размер обучающего набора стремится к бесконеч-
ности, ошибка обучения любой модели фиксированной емкости (в данном случае квад-
ратичной) должна возрастать как минимум до байесовской ошибки. (
Внизу
) С ростом
размера обучающего набора оптимальная емкость (показанная здесь как степень опти-
мального полиномиального регрессора) увеличивается. Оптимальная емкость выходит
на плато после достижения сложности, достаточной для решения задачи
Емкость, переобучение и недообучение
Do'stlaringiz bilan baham: |