Ж вычисл матем и матем физ

Download 240,5 Kb.

bet	4/5
Sana	19.05.2022
Hajmi	240,5 Kb.
	#604739

1 2 3 4 5

Bog'liq
zvmmf9861

P_ML1	n
= P_{C l} .	n

ˆ	ˆ	состоит в знаке: в (3) стоит , а не =, показывая,
Отличие P_{M L}	от классической оценки P_{C l}	состоит в знаке: в (3) стоит , а не =, показывая,

что классическая точечная оценка для P занижена. Объяснением этому факту является неучет в классической модели при справедливости гипотезы 1 результатов работы алгоритма на обучаю щей выборке, где частота ошибки, скорее всего, меньше m/n.

Достоверность η оценки (3) может быть определена в рамках бейесовского подхода для рав номерного априорного распределения значения k:

			M	m
			∑ ^Ck_k
η = η( M ; n, m ) =			k = m	2	.	(4)
			n	m
			∑ ^Ck_k
			k = m	2
По этой формуле можно определить некоторые значения достоверности η оценки
ˆ	1 –	M				(5)
P =	1 –	2 n				(5)
		2 n
ˆ
(а при M = 2m – для оценки P_{M L} по (3)).
Например,
η( 2 ; n, 1 ) =		1			¹.
	2 – ( n + 2 )/2ⁿ				2

Это означает, что при m = 1 классическая оценка P для не слишком малых n практически яв ляется медианной. (Автор не считает возможным делать статистические выводы для значений n = 1, 2, 3, см. [7].) Так, в этом случае для n = 10 по (1) имеем 0.9 P, в то время как классическая медианная оценка дает P = 0.85 (см. [8]).

Приведем теперь оценки P высокой (практически) одинаковой достоверности при тех же зна чениях n = 10 и m = 1 по предлагаемой и классической моделям. По (4) имеем η(6; 10, 1) =

0.943 ≈ 0.95, откуда t = 0.6 и по (1) имеем 0.7 P, а при классическом доверительном с η = 0.95 оценивании получим 0.61 P 0.99 (см. [9]). Далее, поскольку η(5; 10, 1) = 0.895 ≈ 0.9, по (4) имеем t = 0.5 и по (1) имеем 0.75 P, в то время, как классическое доверительное с η = 0.9 оце нивание дает 0.66 P 0.99. Несложный анализ показывает, что классические оценки тем более занижены, чем m/n ближе к 1/2.

Аналогично, по (5) и (4) могут быть вычислены достоверности произвольных точечных клас сических оценок, понимаемых как нижние граничные. Заметим, что, возможно, вычисление сумм в (4) через значения неполной бета

ЖУРНАЛ ВЫЧИСЛИТЕЛЬНОЙ МАТЕМАТИКИ И МАТЕМАТИЧЕСКОЙ ФИЗИКИ том 53 № 5 2013

812 ГУРОВ

f(t)

0.04

0.03

0.02

0.01

0

0.2

0.4

0.6

0.8

1.0

t

Фигура.

Отдельно рассмотрим случай 0

m = 0. Формально по (2) имеем L(k; n, 0) = 2^–^k

и по (4) имеем

M
^{∑ 2 –}k

η = η( M ; n, 0 ) = ^k ⁼ ⁰= –	1	1		1– ¹.
n	^M	1		2	M
∑ 2 ^–^k	21 –	2	n	2
		2

k = 0

По данной формуле, например, для n = 10 и m = 0 получим, что 0.80 P с η 0.937, (M = 4); 0.75 P с η 0.968, (M = 5); 0.70 P с η 0.984, (M = 6).

ОЦЕНКИ ПО SM2C

этом случае функция правдоподобия L(t) имеет вид

m	1	–	t ⁿ ^– ^m t ^m			m	t1.
L ( t ; n, m ) = C_n	1	–			, 1 <	n	t1.
			2	2		n

Максимум функции L(t) достигается при t = 2m/n. Совпадение оценки с аналогичной в SM2D говорит об “эргодичности” рассматриваемой информационной модели. Несложный анализ по

казывает, что SM2C – предельный случай SM2D при n ∞, и поэтому выбор той или иной модели определяется лишь их адекватностью реальному процессу распознавания в конкрет ной задаче.

Интервальные оценки для P в рамках бейесовского подхода с равномерным априорным рас пределением могут быть получены по апостериорному распределению с плотностью

	1	–	t ⁿ ^– ^m t ^m
	1	–
f_a _{_post} ( t ; n, m ) =			2	2
f_a _{_post} ( t ; n, m ) =		M ( n , m )		,
		M ( n , m )

где

^mt1 ,

(6)

n

1
M ( n , m ) = ∫ 1 –

m

n

ⁿ^–^mt ^m _dt

₂₂

ЖУРНАЛ ВЫЧИСЛИТЕЛЬНОЙ МАТЕМАТИКИ И МАТЕМАТИЧЕСКОЙ ФИЗИКИ том 53 № 5 2013

ОЦЕНКА НАДЕЖНОСТИ АЛГОРИТМА КЛАССИФИКАЦИИ

813

есть нормирующий множитель. На фигуре изображен график функции f(t) = 1 – ^t ⁹ ^t , пропор 2 2

циональный f_a_{_post}(t; 10, 1). По (6) возможно получение интервальных оценок P для произволь ных значений η.

Бейесовские оценки границ доверительного интервала (t^–, t⁺) получаем, численно решая (по скольку f_a_{_post} унимодальна) следующую систему (см. [10], [11]):

_a_{_post}( t ^– ; n, m ) = f_a _{_post} ( t ⁺ ; n, m ), t ⁺

f_a _{_post} ( t ; n, m )dt = η.

t^–

Простой анализ показывает, что уже такие оценки точнее классических. Возможно также по лучение более точных интервальных оценок различного типа в рамках частотного подхода.

качестве примера приведем в нижеследующих таблицах некоторые интервальные оценки (P ^–, P ⁺) достоверности η = 0.90, полученные по SM2C в рамках бейесовского подхода (SM2C при равномерном априорном распределении t, а также для сравнения классические (как обычно, значение P ⁺ расположено под P ^–). Классические интервалы (модель SM1) найдены, исходя из [8].

Уже в приведенных примерах видно сокращение, по сравнению с классическим подходом, ве личин интервалов.

Рассматривая выборку прецедентов только одного данного из классов, можно определить ошибки I и II родов. Очевидным способом подход переносится на случай многих классов.

6. ВЫВОДЫ

Предлагается информационная модель, более адекватно описывающая работу классифици рующего алгоритма, чем классическая. Модель не использует являющуюся слабым местом

VC , из которого выбирается алгоритм. На осно ве введенной модели возможно получение более точных, чем классические, оценок надежности

Таблица. η = 0.90

Модель	n		m
Модель	n
		0	1	2

SM1	10	0.7410	0.6060	0.4930
		1.0000	0.9950	0.9630
SM2C		0.8114	0.6856	0.6012
		1.0000	0.9500	0.9000
SM1	20	0.8610	0.7840	0.7170
		1.0000	0.9970	0.9820
SM2C		0.8961	0.8220	0.7611
		1.0000	0.9750	0.9500
SM1	100	0.9700	0.9617	0.8368
		1.0000	0.9974	0.9447
SM2C		0.9775	0.9609	0.8513
		1.0000	0.9950	0.9500

ЖУРНАЛ ВЫЧИСЛИТЕЛЬНОЙ МАТЕМАТИКИ И МАТЕМАТИЧЕСКОЙ ФИЗИКИ том 53 № 5 2013

814 ГУРОВ

классификации. Дальнейшее уточнение оценок при малых m возможно путем отказа от предпо ложения о равномерности априорного распределения с использованием принципа согласован ности (см. [12]).

Интересным направлением дальнейших исследований является сравнение новых оценок с известными, получаемыми на основе различных подходов, не использующих гипотезу 2. Воз можна и адаптация указанных подходов к введенной модели.

Автор признателен Ю.И. Журавлёву за неизменную поддержку и В.Е. Бенингу за полезные консультации. Особая благодарность Е.А. Марченко, выполнившему расчеты неклассических оценок.

	7. ПРИЛОЖЕНИЕ
Ниже приведены рассчитанные по IM2C	P ^–, P ⁺) надежности клас

сификации P для длин экзаменационных выборок n = 4, 5, …, 10, 15, 20, 30, 50, 100, числа ошибок на них m = 0, 1, …, 10 и достоверности η = 0.90.

P^–

× 10 000

Download 240,5 Kb.

Do'stlaringiz bilan baham:

1 2 3 4 5