110
Основы машинного обучения
Чтобы подойти к крайнему случаю произвольно высокой емкости, введем понятие
непараметрической
модели
. До сих пор мы рассматривали только параметрические
модели типа линейной регрессии. Параметрическая модель обучает функцию, опи-
санную вектором параметров, размер которого конечен и фиксируется до наблюде-
ния данных. У непараметрических моделей такого ограничения нет.
Иногда непараметрические модели представляют собой просто теоретические абст-
ракции (например, алгоритм, который производит поиск среди всех возможных рас-
пределений вероятности), не реализуемые на практике. Однако можно также спро-
ектировать практически полезные непараметрические модели, сделав их сложность
функцией от размера обучающего набора. Примером такого алгоритма может служить
регрессия методом ближайшего соседа
. В отличие от линейной регрессии, когда раз-
мер вектора весов фиксирован, модель регрессии методом ближайшего соседа просто
сохраняет
X
и
y
из обучающего набора. Когда модель просят классифицировать те-
стовую точку
x
, она находит ближайшую к
x
точку обучающего набора и возвращает
ассоциированную с ней метку. Иными словами,
y
�
=
y
i
, где
i
= arg min ||
X
i
, :
–
x
||
2
2
. Этот
алгоритм легко обобщается на метрики, отличные от нормы
L
2
, например найденные
в процессе обучения (Goldberger et al., 2005). Если позволено разрешать неоднознач-
ности путем усреднения значений
y
i
по всем
X
i
, :
являющимся ближайшими соседями,
то этот алгоритм может достичь минимально возможной ошибки обучения (которая
может оказаться больше нуля, если с двумя одинаковыми примерами ассоциированы
разные метки) на любом наборе данных для регрессии.
Наконец, мы можем создать непараметрический алгоритм обучения, обернув па-
раметрический алгоритм другим, который увеличивает число параметров по мере
необходимости. Представьте, к примеру, внешний цикл обучения, который изменяет
степень многочлена, обучаемого в результате регрессии.
Идеальной моделью являлся бы оракул, который просто знает истинное распре-
деление вероятности, на основе которого генерируются данные. Но даже такая мо-
дель будет давать некоторую ошибку для многих задач из-за шума. В случае обучения
с учителем отображение
x
в
y
может быть действительно стохастическим, но также
возможно, что
y
– детерминированная функция, только у нее есть дополнительные
аргументы, помимо включенных в
Do'stlaringiz bilan baham: |