PML1
|
n
|
= PC l .
|
|
|
|
|
|
ˆ
|
ˆ
|
состоит в знаке: в (3) стоит , а не =, показывая,
|
Отличие PM L
|
от классической оценки PC l
|
что классическая точечная оценка для P занижена. Объяснением этому факту является неучет в классической модели при справедливости гипотезы 1 результатов работы алгоритма на обучаю щей выборке, где частота ошибки, скорее всего, меньше m/n.
Достоверность η оценки (3) может быть определена в рамках бейесовского подхода для рав номерного априорного распределения значения k:
|
|
|
M
|
m
|
|
|
|
|
|
∑ Ckk
|
|
|
η = η( M ; n, m ) =
|
k = m
|
2
|
.
|
(4)
|
|
|
|
n
|
m
|
|
|
|
|
|
∑ Ckk
|
|
|
|
|
|
k = m
|
2
|
|
|
По этой формуле можно определить некоторые значения достоверности η оценки
|
|
ˆ
|
1 –
|
M
|
|
|
|
(5)
|
P =
|
2 n
|
|
|
|
|
|
|
|
|
|
ˆ
|
|
|
|
|
|
|
(а при M = 2m – для оценки PM L по (3)).
|
|
|
|
|
|
|
Например,
|
|
|
|
|
|
|
η( 2 ; n, 1 ) =
|
|
1
|
|
|
1 .
|
|
|
2 – ( n + 2 )/2n
|
2
|
|
Это означает, что при m = 1 классическая оценка P для не слишком малых n практически яв ляется медианной. (Автор не считает возможным делать статистические выводы для значений n = 1, 2, 3, см. [7].) Так, в этом случае для n = 10 по (1) имеем 0.9 P, в то время как классическая медианная оценка дает P = 0.85 (см. [8]).
Приведем теперь оценки P высокой (практически) одинаковой достоверности при тех же зна чениях n = 10 и m = 1 по предлагаемой и классической моделям. По (4) имеем η(6; 10, 1) =
0.943 ≈ 0.95, откуда t = 0.6 и по (1) имеем 0.7 P, а при классическом доверительном с η = 0.95 оценивании получим 0.61 P 0.99 (см. [9]). Далее, поскольку η(5; 10, 1) = 0.895 ≈ 0.9, по (4) имеем t = 0.5 и по (1) имеем 0.75 P, в то время, как классическое доверительное с η = 0.9 оце нивание дает 0.66 P 0.99. Несложный анализ показывает, что классические оценки тем более занижены, чем m/n ближе к 1/2.
Аналогично, по (5) и (4) могут быть вычислены достоверности произвольных точечных клас сических оценок, понимаемых как нижние граничные. Заметим, что, возможно, вычисление сумм в (4) через значения неполной бета
ЖУРНАЛ ВЫЧИСЛИТЕЛЬНОЙ МАТЕМАТИКИ И МАТЕМАТИЧЕСКОЙ ФИЗИКИ том 53 № 5 2013
812 ГУРОВ
f(t)
0.04
0.03
0.02
0.01
0
|
0.2
|
0.4
|
0.6
|
0.8
|
1.0
|
|
|
|
|
|
t
|
|
|
Фигура.
|
|
|
Отдельно рассмотрим случай 0
|
|
|
m = 0. Формально по (2) имеем L(k; n, 0) = 2–k
|
и по (4) имеем
M
∑ 2 –k
-
η = η( M ; n, 0 ) = k = 0= –
|
1
|
1
|
1– 1.
|
n
|
M
|
2
|
M
|
∑ 2 –k
|
21 –
|
2
|
n
|
|
|
|
|
|
|
k = 0
По данной формуле, например, для n = 10 и m = 0 получим, что 0.80 P с η 0.937, (M = 4); 0.75 P с η 0.968, (M = 5); 0.70 P с η 0.984, (M = 6).
этом случае функция правдоподобия L(t) имеет вид
-
m
|
1
|
–
|
t n – m t m
|
m
|
t1.
|
L ( t ; n, m ) = Cn
|
|
|
, 1 <
|
n
|
|
|
|
2
|
2
|
|
|
Максимум функции L(t) достигается при t = 2m/n. Совпадение оценки с аналогичной в SM2D говорит об “эргодичности” рассматриваемой информационной модели. Несложный анализ по
казывает, что SM2C – предельный случай SM2D при n ∞, и поэтому выбор той или иной модели определяется лишь их адекватностью реальному процессу распознавания в конкрет ной задаче.
Интервальные оценки для P в рамках бейесовского подхода с равномерным априорным рас пределением могут быть получены по апостериорному распределению с плотностью
-
|
1
|
–
|
t n – m t m
|
|
|
|
|
fa _post ( t ; n, m ) =
|
|
|
2
|
|
2
|
|
M ( n , m )
|
,
|
|
|
|
где
1
M ( n , m ) = ∫ 1 –
m
n
22
ЖУРНАЛ ВЫЧИСЛИТЕЛЬНОЙ МАТЕМАТИКИ И МАТЕМАТИЧЕСКОЙ ФИЗИКИ том 53 № 5 2013
-
ОЦЕНКА НАДЕЖНОСТИ АЛГОРИТМА КЛАССИФИКАЦИИ
|
813
|
есть нормирующий множитель. На фигуре изображен график функции f(t) = 1 – t 9 t , пропор 2 2
циональный fa_post(t; 10, 1). По (6) возможно получение интервальных оценок P для произволь ных значений η.
Бейесовские оценки границ доверительного интервала (t–, t+) получаем, численно решая (по скольку fa_post унимодальна) следующую систему (см. [10], [11]):
a _post ( t – ; n, m ) = fa _post ( t + ; n, m ), t +
fa _post ( t ; n, m )dt = η.
t–
Простой анализ показывает, что уже такие оценки точнее классических. Возможно также по лучение более точных интервальных оценок различного типа в рамках частотного подхода.
качестве примера приведем в нижеследующих таблицах некоторые интервальные оценки (P –, P +) достоверности η = 0.90, полученные по SM2C в рамках бейесовского подхода (SM2C при равномерном априорном распределении t, а также для сравнения классические (как обычно, значение P + расположено под P –). Классические интервалы (модель SM1) найдены, исходя из [8].
Уже в приведенных примерах видно сокращение, по сравнению с классическим подходом, ве личин интервалов.
Рассматривая выборку прецедентов только одного данного из классов, можно определить ошибки I и II родов. Очевидным способом подход переносится на случай многих классов.
6. ВЫВОДЫ
Предлагается информационная модель, более адекватно описывающая работу классифици рующего алгоритма, чем классическая. Модель не использует являющуюся слабым местом
VC , из которого выбирается алгоритм. На осно ве введенной модели возможно получение более точных, чем классические, оценок надежности
Таблица. η = 0.90
Модель
|
n
|
|
m
|
|
|
|
|
|
|
0
|
1
|
2
|
|
|
|
|
|
SM1
|
10
|
0.7410
|
0.6060
|
0.4930
|
|
|
1.0000
|
0.9950
|
0.9630
|
SM2C
|
|
0.8114
|
0.6856
|
0.6012
|
|
|
1.0000
|
0.9500
|
0.9000
|
SM1
|
20
|
0.8610
|
0.7840
|
0.7170
|
|
|
1.0000
|
0.9970
|
0.9820
|
SM2C
|
|
0.8961
|
0.8220
|
0.7611
|
|
|
1.0000
|
0.9750
|
0.9500
|
SM1
|
100
|
0.9700
|
0.9617
|
0.8368
|
|
|
1.0000
|
0.9974
|
0.9447
|
SM2C
|
|
0.9775
|
0.9609
|
0.8513
|
|
|
1.0000
|
0.9950
|
0.9500
|
|
|
|
|
|
ЖУРНАЛ ВЫЧИСЛИТЕЛЬНОЙ МАТЕМАТИКИ И МАТЕМАТИЧЕСКОЙ ФИЗИКИ том 53 № 5 2013
814 ГУРОВ
классификации. Дальнейшее уточнение оценок при малых m возможно путем отказа от предпо ложения о равномерности априорного распределения с использованием принципа согласован ности (см. [12]).
Интересным направлением дальнейших исследований является сравнение новых оценок с известными, получаемыми на основе различных подходов, не использующих гипотезу 2. Воз можна и адаптация указанных подходов к введенной модели.
Автор признателен Ю.И. Журавлёву за неизменную поддержку и В.Е. Бенингу за полезные консультации. Особая благодарность Е.А. Марченко, выполнившему расчеты неклассических оценок.
|
7. ПРИЛОЖЕНИЕ
|
Ниже приведены рассчитанные по IM2C
|
P –, P +) надежности клас
|
сификации P для длин экзаменационных выборок n = 4, 5, …, 10, 15, 20, 30, 50, 100, числа ошибок на них m = 0, 1, …, 10 и достоверности η = 0.90.
Do'stlaringiz bilan baham: |