107
Эти факторы соответствуют двум центральным проблемам машинного обучения:
недообучению
и
переобучению
. Недообучение имеет место, когда модель не позво-
ляет получить достаточно малую ошибку на обучающем наборе, а переобучение –
когда разрыв между ошибками обучения и тестирования слишком велик.
Управлять склонностью модели к переобучению или недообучению позволяет ее
емкость
(capacity). Неформально говоря, емкость модели описывает ее способность
к аппроксимации широкого спектра функций. Модели малой емкости испытывают
сложности в аппроксимации обучающего набора. Модели большой емкости склонны
к переобучению, поскольку запоминают свойства обучающего набора, не присущие
тестовому.
Один из способов контроля над емкостью алгоритма обучения состоит в том, чтобы
выбрать его
пространство гипотез
– множество функций, которые алгоритм может
рассматривать в качестве потенциального решения. Например, пространством гипо-
тез алгоритма линейной регрессии является множество всех линейных функций от
входных данных. Мы можем обобщить линейную регрессию, включив в пространство
гипотез многочлены более высокой степени. При этом увеличится емкость модели.
Ограничившись только многочленами степени 1, мы получим модель линейной
регрессии, с которой уже знакомы:
y
�
=
b
+
wx
.
(5.15)
Добавив еще один признак, коэффициент при
x
2
, мы сможем обучить модель в виде
квадратичной функции от
x
:
y
�
=
b
+
w
1
x
+
w
2
x
2
.
(5.16)
Хотя эта модель ищет квадратичную функцию
входных данных
, результат по-
прежнему линейно зависит от
параметров
, так что мы можем использовать нормаль-
ные уравнения для обучения модели в замкнутой форме. Продолжая добавлять в ка-
честве признаков коэффициенты при более высоких степенях, мы можем получить,
например, многочлен степени 9:
(5.15)
В общем случае алгоритмы машинного обучения работают оптимально, когда ем-
кость модели соответствует истинной сложности задачи и объему обучающих дан-
ных. Модель недостаточной емкости не способна решать сложные задачи. Модель
избыточной емкости может решать сложные задачи, но если емкость слишком высока
для конкретной задачи, то возникает риск переобучения.
На рис. 5.2 иллюстрируется этот принцип. Мы применяем три модели – линейную,
квадратичную и полиномиальную степени 9 – к задаче аппроксимации, когда истин-
ная функция – квадратичная. Линейная модель не способна уловить кривизну истин-
ной кривой, поэтому является недообученной. Модель степени 9 может представить
правильную функцию, но вместе с ней еще бесконечно много функций, проходящих
через те же точки, поскольку параметров больше, чем обучающих примеров. Мало
шансов, что из такого несметного множества совершенно непохожих кандидатов бу-
дет выбрано хорошо обобщающееся решение. В данном случае квадратичная модель
точно соответствует истинной структуре задачи, поэтому она хорошо обобщается на
новые данные
Do'stlaringiz bilan baham: |