Гипотеза 1. На пространстве образов задано (может быть неизвестное) распределение веро ятностей P(X), X ⊆ , и любой рассматриваемый набор образов x1, x2, …, xn из считается (если явно не указано иначе) реализацией независимой выборки n случайных величин из генеральной сово купности с распределением P(X).
Все упомянутые выше подходы опираются на классическую информационную модель, которую обозначим через IM1, описывающую функционирование алгоритма классификации как следующий процесс.
Получение описания объекта x ∈ .
Получение значения r случайной величины, равномерно распределенной на отрезке [0, 1].
Сравнение r с внутренним параметром P ∈ [0, 1] алгоритма.
Выдача правильного ответа о принадлежности x, если r P, и неправильного – в противном случае.
Можно считать, что описание x содержит скрытый двузначный параметр z, кодирующий при надлежность x к данным классам, а классификация осуществляется, опираясь на “подсмотрен ное” алгоритмом значение z. Статистическая модель, соответствующая данной информацион ной – классическая урновая схема Бернулли.
Представляется, однако, что, именно в силу своей универсальности, схема Бернулли является слишком грубой формализацией процесса классификации, осуществляемой алгоритмом A. Она, например, не учитывает факт построения (настройки) A по обучающейся последовательно сти, в силу чего большие значения искомого параметра P более вероятны, чем малые, и, более то го, P 1/2.
Ниже развивается подход, опирающийся на предлагаемую новую, более адекватную инфор мационную модель алгоритмов классификации.
3. НОВАЯ ИНФОРМАЦИОННАЯ МОДЕЛЬ КЛАССИФИЦИРУЮЩЕГО АЛГОРИТМА
Предлагаемая информационная модель IM2 алгоритма классификации базируется на следу ющих предположениях.
Информация о значениях n (длина тестовой последовательности прецедентов) и m (число ошибок классификации) является достаточной и адекватной для оценки вероятности P.
ЖУРНАЛ ВЫЧИСЛИТЕЛЬНОЙ МАТЕМАТИКИ И МАТЕМАТИЧЕСКОЙ ФИЗИКИ том 53 № 5 2013
810 ГУРОВ
Каждый классифицирующий алгоритм характеризуется значением некоторого скрытого не случайного, но неизвестного параметра t ∈ [0, 1], который определяет его степень “необучен ности”.
Условие (А) будет выполняться, например, когда экзаменационная выборка независима от обучающей, т.е. при справедливости гипотезы 1. Понятно, что заведомо m n/2, поскольку ина че можно вернуться к этапу построения алгоритма и инвертировать решающее правило.
Условие (Б) описывает предлагаемую информационную модель функционирования алгорит
ма классификации как процесс из 4 рвые два из них совпадают с соответствующими описанными для классической модели в предыдущем разделе. Далее осуществляются следую щие шаги:
сравнение r с внутренним параметром t ∈ [0, 1] алгоритма;
в случае t r (выдача правильного ответа о принадлежности x, в противном случае) выдача правильного ответа с вероятностью p.
Можно, как и ранее, считать, что описание x содержит скрытый параметр z, и алгоритм на ша ге 4) в первом из указанных случаев – всегда, а во втором – с вероятностью p выдает “подсмот ренное” значение z и с вероятностью 1 – p – ему противоположное. Статистическая модель, со ответствующая данной информационной, очевидно, описывается как двухуровневое испытание по урновой схеме Бернулли.
Вследствие обучения алгоритма A, на последнем шаге работы модели IM2 значение вероятно сти p правильного ответа будет не менее 1/2 и этот минимум реализуется при условии равнове роятного появления объектов из каждого класса. Таким образом, 1/2 p. Точное значение p, оче видно, неопределимо. Однако в рамках предлагаемой модели IM2 всегда можно положить p = 1/2, корректируя соответствующим образом параметр t. При этом p < 1/2 не дает возможности осуще ствить приведенное выше рассуждение, что явно проявляется в случае t = 1, рассмотренном ни же. Поэтому далее мы будем полагать p = 1/2, получая, в крайнем случае, загрубленные оценки соответствующих параметров.
данных предположениях вероятность P правильной классификации произвольного объекта оценивается как
-
P = 1 – t + t p1 – t ,
|
0mt1.
|
(1)
|
2
|
n
|
|
Теперь наша задача – оценить значение t. Это можно сделать, построив на основе приведен ной информационной модели IM2 алгоритма две его статистические модели: дискретную и не прерывную.
Do'stlaringiz bilan baham: |