114
Основы машинного обучения
Вообще, мы можем регуляризовать модель, которая обучает функцию
f
(
x
,
θ
), при-
бавив к функции стоимости штраф, называемый
регуляризатором
. В случае сниже-
ния весов регуляризатор имеет вид
Ω
(
w
) =
w
⏉
w
. В главе 7 мы встретим много других
регуляризаторов.
Выражение предпочтения одной функции перед другой – более общий способ
управления емкостью модели, чем расширение или сужение пространства гипотез.
Исключение функции из пространства гипотез можно трактовать как бесконечно
большое «предпочтение» против этой функции.
В примере снижения весов мы явно выразили предпочтение линейным функциям
с меньшими весами, включив дополнительный член в минимизируемый критерий.
Есть много других способов – явных и неявных – отдать предпочтение другим реше-
ниям. Все такие подходы называются
регуляризацией
. Регуляризация – это любая
модификация алгоритма обучения, предпринятая с целью уменьшить его ошибку
обобщения, не уменьшая ошибку обучения. Регуляризация – одна из важнейших тем
машинного обучения, с которой соперничать может только оптимизация.
Из теоремы об отсутствии бесплатных завтраков вытекает, что не существует наи-
лучшего алгоритма машинного обучения и, в частности, наилучшей формы регуляри-
зации. Мы должны выбирать ту форму регуляризации, которая отвечает конкретной
решаемой задаче. Философия глубокого обучения вообще и этой книги в частности
состоит в том, что имеется широкий круг задач (например, все интеллектуальные за-
дачи, выполняемые людьми), которые можно эффективно решить, применяя весьма
универсальные формы регуляризации.
5.3. Гиперпараметры и контрольные наборы
У большинства алгоритмов машинного обучения имеются гиперпараметры, управ-
ляющие поведением алгоритма. Значения гиперпараметров не отыскиваются самим
алгоритмом (хотя можно построить вложенную процедуру, в которой один алгоритм
обучения будет находить гиперпараметры для другого).
В примере полиномиальной регрессии на рис. 5.2 один гиперпараметр: степень
многочлена, он играет роль гиперпараметра емкости. Другой пример гиперпарамет-
ра – значение
λ
, контролирующее силу снижения весов.
Иногда настройку делают гиперпараметром, а не обучают, потому что оптимиза-
ция слишком сложна. Но чаще причина в том, что бессмысленно обучать гиперпара-
метр на обучающем наборе. Это относится ко всем гиперпараметрам, управляющим
емкостью модели. При попытке обучить их на обучающем наборе всегда выбиралась
бы максимально возможная емкость модели, что приводило бы к переобучению (см.
рис. 5.3). Например, мы всегда можем взять многочлен высокой степени и положить
коэффициент снижения весов
λ
= 0 – аппроксимация обучающего набора при этом
будет лучше, чем для многочлена более низкой степени и положительного
λ
.
Для решения этой проблемы нам нужен
Do'stlaringiz bilan baham: |