125
5.5.2. Свойства максимального правдоподобия
Главное достоинство оценки максимального правдоподобия заключается в том, что
с точки зрения скорости сходимости она является асимптотически наилучшей оцен-
кой, когда количество примеров
m
⟶
∞
.
При определенных условиях оценка максимального правдоподобия обладает свой-
ством состоятельности (см. раздел 5.4.5), т. е. когда число обучающих примеров стре-
мится к бесконечности, оценка максимального правдоподобия параметра сходится
к истинному значению этого параметра. Вот эти условия:
истинное распределение
p
data
принадлежит семейству модельных распределе-
ний
p
model
(·;
θ
). В противном случае никакая оценка не сможет реконструиро-
вать
p
data
;
истинное распределение
p
data
соответствует ровно одному значению
θ
. В про-
тивном случае оценка максимального правдоподобия сможет реконструиро-
вать
p
data
, но не сможет определить, какое значение
θ
было использовано в по-
рождающем процессе.
Существуют и другие индуктивные принципы, помимо оценки максимального
правдоподобия, и многие из них обладают свойством состоятельности. Однако сос-
тоятельные оценки могут различаться по
статистической эффективности
, т. е. некая
оценка может давать меньшую ошибку обобщения при фиксированном числе при-
меров
m
или, эквивалентно, требовать меньше примеров для получения заданного
уровня ошибки обобщения.
Статистическая эффективность обычно изучается в
параметрическом случае
(например, в линейной регрессии), когда наша цель – оценить значение параметра
(в предположении, что выявить истинный параметр возможно), а не значение функ-
ции. Для измерения степени близости к истинному значению параметра использует-
ся ожидаемая среднеквадратическая ошибка, описывающая квадрат разности между
оценкой и истинным значением параметра, причем математическое ожидание вы-
числяется по
m
обучающим примерам, взятым из порождающего распределения. Эта
параметрическая среднеквадратическая ошибка убывает с ростом
m
, и для больших
m
справедливо неравенство Крамера–Рао (Rao, 1945; Cramе
́
r, 1946), показывающее,
что ни для какой состоятельной оценки среднеквадратическая ошибка не может быть
меньше, чем для оценки максимального правдоподобия.
По этим причинам (состоятельность и эффективность) оценка максимального
правдоподобия часто считается предпочтительной в машинном обучении. Если ко-
личество примеров настолько мало, что есть угроза переобучения, то можно приме-
нить стратегии регуляризации, например снижение весов, которые дают смещенный
вариант оценки максимального правдоподобия с меньшей дисперсией.
Do'stlaringiz bilan baham: |