Дискретная статистическая модель (SM2D). Считаем, что [(1 – t)n] элементов контрольной выборки алгоритм отклассифицировал правильно, “подсмотрев” значение параметра z, а клас сификация остальных объектов – результат случайного угадывания с вероятностью успеха p.
Непрерывная статистическая модель (SM2C). Считаем, что классификация каждого объекта происходит по модели IM2, описанной выше.
SM2D может более соответствовать реальному процессу классификации в случае, когда на вход алгоритма подаются совокупности описаний образов, а SM2C – когда такие описания по даются последовательно по одному. В отсутствие какой
классификации предпочтительнее использование SM2C. Заметим, что данные модели соответ ствуют осреднению “по времени” и “по совокупности” соответственно в рамках эргодической теории случайных процессов.
IM2 граничные значения t означают, что: при t = 0 удалось построить алгоритм, всегда пра вильно осуществляющий классификацию любого предъявляемого объекта; при t = 1 построен ный алгоритм выдает случайный (с вероятностью P = p – правильный) ответ о принадлежности объекта (для чего не требуется даже обращения к его описанию).
рамках предлагаемой модели мы описываем реальный алгоритм некоторым значением t, ле жащим между этими крайними идеальными случаями. Таким образом, правильная классифика ция в предлагаемой модели обеспечивается либо построенным безошибочным решающим пра вилом, либо является результатом случайного угадывания. (Ср. с двойственным подходом в [6], где ошибка прогнозирования разлагается на ошибку оптимального прогноза и шум.)
Общепринятыми являются следующие возможности определить параметр t: 1) из условия максимума правдоподобия и 2) по апостериорному распределению (максимум апостериорной
ЖУРНАЛ ВЫЧИСЛИТЕЛЬНОЙ МАТЕМАТИКИ И МАТЕМАТИЧЕСКОЙ ФИЗИКИ том 53 № 5 2013
-
ОЦЕНКА НАДЕЖНОСТИ АЛГОРИТМА КЛАССИФИКАЦИИ
|
811
|
вероятности, математическое ожидание, медиана, интервальные оценки) в рамках частотного и бейесовского подхода соответственно. Ясно также, что при равномерном априорном, апостери орное распределение есть нормированная функция правдоподобия.
4. ОЦЕНКИ ПО SM2D
Полагаем t = k/n, 0 m k n. Функция правдоподобия L(k) параметра t, пересчитанная для k, будет иметь вид
-
L ( k ; n , m ) = Ckm p n – m ( 1 – p )m – n + k = Ckm .
|
(2)
|
2 k
|
|
Легко показать, что максимум функции L(k; n, m) будет наблюдаться для k ∈ {2m – 1, 2m}, от
|
|
|
|
ˆ
|
максимума правдоподобия P по (1) име
|
куда верхняя оценка параметра t есть 2m/n, а оценка PM L
|
ет вид
|
|
|
|
|
|
|
ˆ
|
–
|
m
|
ˆ
|
(3)
|
|
|
Do'stlaringiz bilan baham: |