MATH-NET.RU
Общероссийский математический портал
И. Гуров, Оценка надежности алгоритма классификации на основе новой информационной модели, Ж. вычисл. матем. и матем. физ., 2013, том 53, номер 5, 808–815
DOI: https://doi.org/10.7868/S0044466913050050
Использование Общероссийского математического портала Math-Net.Ru подразумевает, что вы прочитали и согласны с пользовательским соглашением
http://www.mathnet.ru/rus/agreement
Параметры загрузки:
IP: 84.54.94.81
23 февраля 2022 г., 08:30:45
ЖУРНАЛ ВЫЧИСЛИТЕЛЬНОЙ МАТЕМАТИКИ И МАТЕМАТИЧЕСКОЙ ФИЗИКИ, 2013, том 53, № 5, с. 808–815
УДК 519.7
ОЦЕНКА НАДЕЖНОСТИ АЛГОРИТМА КЛАССИФИКАЦИИ НА ОСНОВЕ НОВОЙ ИНФОРМАЦИОННОЙ МОДЕЛИ1)
© 2013 г. С. И. Гуров
(Москва 119992, Ленинские горы, МГУ, ВМиК)
e
Поступила в редакцию 26.04.2011 г.
Предлагается новый подход к получению оценок надежности алгоритмов классификации.
основе подхода – нетрадиционная информационная модель таких алгоритмов. Приведены примеры новых оценок в сравнении с обычными статистическими. Библ. 12. Фиг. 1. Табл. 2.
Ключевые слова: надежность классификации, распознавание образов, информационная модель.
DOI: 10.7868/S0044466913050050
1. ВВЕДЕНИЕ. ПОСТАНОВКА ЗАДАЧИ
Проблема оценки надежности алгоритмов классификации является одной из основных в тео рии обучения по прецедентам. Данной проблеме посвящено большое количество работ (обзор см. в [1]). При этом в основном потоке публикаций рассматривается постановка задачи в рамках того или иного развития известной теории Вапника–Червоненкиса (VC
данной работе, являющейся развитием [2], представлены результаты в решении указанной задачи, полученные с использованием новой информационной (в терминах формальной зависи мости “вектор параметров–класс”) модели алгоритма классификации, свободной от положений
VC ода к оценке вероятности случайных событий.
Рассматривается классифицирующий алгоритм A – произвольный алгоритм детерминирован ной классификации без отказов на два класса объектов из некоторого пространства . Считает ся, что создание алгоритма A проводилось (возможно, исключительно) на основе обучающей по следовательности прецедентов (элементов из с известной классификацией) так, чтобы макси мизировать надежность алгоритма A. Необходимо оценить вероятность P правильной классификации алгоритмом A произвольного объекта из . Оценка осуществляется тестирова нием алгоритма A на конечной контрольной выборке прецедентов. При этом единственными данными для оценки вероятности P является информация о том, что на контрольной выборке длины n алгоритм A совершил m ошибок.
Заметим, что в данной постановке класс алгоритмов, из которого может быть выбран A, не фиксируется. Такой подход обладает очевидными преимуществами перед другими, принимаю
щими требование VC ихся на ней подходов об априорном указа нии класса .
Результатом принятия указанного требования, назовем его Гипотезой 2 (гипотеза 1 встретится ниже), становится необходимость решать непростые, а подчас и неразрешимые вопросы опреде ления различных характеристик класса таких, как емкость, функция роста, коэффициент раз нообразия и др. (о данных трудностях и возможных путях их преодоления см., например, в [1], [3], [4]). Кроме того, указанная гипотеза часто не соответствует реальному процессу построения классифицирующих алгоритмов. Наконец, одна и та же дискриминантная функция на может быть получена реализацией различных алгоритмов, принадлежащих разным классам, что приве дет, вообще говоря, к разным оценкам надежности осуществляемой ею классификации.
Работа выполнена при частичной финансовой поддержке РФФИ (код проекта 10АО “Интел А/О”.
-
ОЦЕНКА НАДЕЖНОСТИ АЛГОРИТМА КЛАССИФИКАЦИИ
|
809
|
Возможно, что VC
вероятностям по классу событий, несмотря на указанные теоретические трудности обоснования
применения к задаче оценки надежности классификации, приводит к результатам, адекватно описывающим практику. Но и это не имеет места: общеизвестно, что она дает чрезвычайно за ниженные оценки надежности, и этот факт является причиной постоянных попыток ее модифи кации с целью приблизить получаемые оценки к реально наблюдающимся при решении практи
ческих задач. (VCспешно прим еняться в распознавании образов при адекватно сти гипотезы 2 процессу построения и/или оценки надежности классификаторов, например, когда классификатор действительно выбирается из ранее фиксированного семейства F или оценка P определяется по обучающей выборке (скользящий контроль) и т.д.)
данной работе оценки надежности алгоритма A получены на основе новой информацион ной модели алгоритмов классификации. Напомним, что информационная модель, в отличие от математической, предполагает описание поведения объекта не с помощью уравнений, соотно шений, закономерностей и т.д., моделирующих реальные физические процессы, а представляет его в терминах формальных зависимостей “вход выход”, обычно никак не связанных с указан ными процессами и обеспечивающих только, по возможности – максимально, правильное на хождение реакции объекта на данный входной сигнал (“черный ящик” в кибернетике).
различных подходах к решению указанной выше задачи часто принимается ряд предполо жений (например, о типах распределений), в результате чего для оценки P требуются трудно определимые или даже ненаблюдаемые параметры (см. [3]). Различного типа оценки вероятно сти P, полученные в рамках классических статистических моделей и без привлечения дополни тельных предположений, приведены в [5].
Во всех упомянутых выше подходах используется
Do'stlaringiz bilan baham: |