a11 , a12 , a13 , …, a1 j | c1
a21 , a22 , a23 , …, a2 j | c2
…
ai1 , ai2 , ai3 , …, aij | ci .
Выполним классификацию на тестовой выборке при тех же входных параметрах для получения спрогнозиро- ванного значения выходного параметра:
a11 , a12 , a13 , …, a1 j | ?
a21 , a22 , a23 , …, a2 j |?
…
ai1 , ai2 , ai3 , …, aij |?,
где знак вопроса «?» обозначает неизвестное значение атрибута.
Для того чтобы выявить ключевые атрибуты, от изме- нений значений которых зависит результат классифика- ции, поочередно заменим каждый из них во всех наборах атрибутов в выборке указателем неизвестного значения.
?,?, a13 , …, a1 j | ?
?, ?, a23 , …, a2 j |?
…
?, ?, ai3 , …, aij |?.
Вес отдельных атрибутов
aij
в наборах будет опреде-
Тестовая выборка в начале цикла поиска ключевых па- раметров будет выглядеть следующим образом:
?, a12 , a13 , …, a1 j | ?
?, a22 , a23 , …, a2 j |?
…
?, ai2 , ai3 , …, aij |?.
С каждой итерацией неизвестное значение «?» будет замещать следующий атрибут aij на интервале от ai1 до
ляться как соотношение количества подмножеств, в кото- рых присутствует атрибут, вызвавших изменение резуль- тата классификации при замене значений указателями
«?», к общему количеству атрибутов во всех таких под- множествах.
Распределение весов атрибутов a j в пределах одного значения класса c выполняется с помощью подсчета суммы рассчитанных, как указано выше, весов атрибутов
aij , находящихся на одной и той же позиции j, из разных наборов Ai .
aij
для j от 1 до
nT , где nT
Алгоритм:
в каждом из наборов выборки, i от 1 до NT , где NT — общий размер тестовой выборки. Всего необходимо вы- полнить j итераций.
Так на последней итерации получим:
a11 , a12 , a13 , …, ? | ?
Обучение C4.5 с обучающей выборкой данных. Все значения параметров на входе aij и выходе ci в обучаю- щей выборке известны.
Классификация C4.5 с тестовой выборкой. Значе- ния параметров на выходе ci в тестовой выборке заме-
a21 , a22 , a23 , …, ? |?
…
ai1 , ai2 , ai3 , …, ? |?.
нены указателями неизвестного значения «?».
Поиск ключевых атрибутов — классификация C4.5 с тестовой выборкой с отсутствующими значениями
атрибутов aij . Количество итераций равно количеству ат-
На каждой итерации проводится сравнение результа- тов классификации — значений ci для одного и того же
рибутов j в наборе на входе 𝐴𝐴𝐴𝐴𝑖𝑖𝑖𝑖. На каждой итерации один из атрибутов a1 j во всех наборах Ai заменяется указате-
набора атрибутов из тестовой выборки без отсутствую-
щих значений входящих данных и из тестовой с отсутству- ющим значением. Если при замене только одного из атри-
лем неизвестного значения «?». Полученные в результате классификации значения ci сравниваются с соответству- ющими значениями ci из п. 2. Если при замене только од-
бутов
aij
значение
ci отличается от соответствующего
ного из атрибутов
aij
из набора
Ai значения
ci не сов-
ему, спрогнозированного ранее в тестовой выборке, то
пали, а замена остальных атрибутов
aij
не вызывает из-
это будет означать, что параметр, который имеет наиболь- ший вес в отдельном наборе входных и выходных парамет- ров, найден.
В пределах одного и того же значения класса
c определение ключевого для него атрибута a j выполня-
менения результата классификации, то ключевой атрибут для набора входных и выходных параметров найден. Для выбранного значения класса c веса, найденных на одной и той же позиции j в разных наборах Ai , ключевых атри-
бутов a j распределяются согласно количеству таких
ется путем подсчета количества атрибутов, расположенных на одной и той же позиции j в разных наборах i, с наиболь- шим весом из тех наборов, где результатом предваритель- ной классификации являлось значение выбранного класса
c. Соответственно количеству найденных на одной и той же позиции j в разных наборах i ключевых атрибутов распре- деляются их веса для каждого значения класса c.
При этом может возникнуть ситуация, когда сразу не- сколько параметров в одном и том же наборе, при заме- щении их в выборке указателями неизвестного значения, вызывают изменение результата классификации. Или же есть необходимость провести дальнейшее распределение весов оставшихся атрибутов. В таком случае нужно про- верять влияние не каждого атрибута по отдельности, а всех возможных комбинаций атрибутов. Рассмотрим те- перь влияние подмножеств параметров, взятых из набо-
наборов.
Распределение весов оставшихся атрибутов, не рас- смотренных в п. 3 — классификация C4.5 с тестовой вы- боркой с отсутствующими значениями комбинаций атри-
C
j
бутов a1 j . Вычисления проводятся отдельно для каждого набора Ai . Количество итераций для каждого набора Ai равно сумме чисел сочетаний k без повторений из j-1 атрибутов по k=2…j-1. При чем j-1 вместо j используется только в случае найденного в п. 3 ключевого атрибута aij для набора Ai . Поочередно выполняется перебор всех
j
возможных сочетаний C k без повторений параметров aij
j
(кроме ключевого из п. 3) из набора Ai с указателями не- известного значения «?» вместо значений параметров aij в сочетаниях. Учитываются только те сочетания Ck , при которых результат классификации ci набора Ai не совпал
ров данных
Ai .
с результатом в п. 2. Вес выбранного атрибута aij рассчи-
Например, комбинации из 2-ух неизвестных значений атрибутов:
тывается как соотношение числа таких сочетаний с этим атрибутом к общему количеству элементов в таких соче-
таниях с выбранным атрибутом aij . Для выбранного зна- чения класса c веса атрибутов a j на одной и той же пози-
только возможности хорошо изученного алгоритма С4.5. Данный метод также, без существенных изменений, можно
ции j в разных наборах
Ai определяются как сумма их ве-
адаптировать и для обновленной версии алгоритма постро-
сов в этих наборах
Ai .
ения деревьев принятия решений С5.0 [10]. Результаты,
Разработанный метод позволяет определить ключевые для выбора того или иного класса атрибуты, а также распре- делять веса остальных входящих параметров. Реализация метода может быть выполнена без каких-либо громоздких надстроек с применением сторонних методов, используя
полученные с помощью данного метода, смогут найти при- менение в качестве предварительной обработки данных для построения более эффективных моделей прогнозирования, где так или иначе необходимо учитывать влияние каждого из всех доступных параметров в выборках.
Литература:
Lior Rokach, Oded Maimon. Data Mining with Decision Trees: Theory and Applications.— River Edge, NJ, USA: World Scientific Publishing Co., Inc., 2008.— 244 с.
J. Ross Quinlan. C4.5: programs for machine learning.— San Francisco, CA, USA: Morgan Kaufmann Publishers Inc., 1993.— 302 с.
J. Ross Quinlan. Induction of Decision Trees // Machine Learning.— 1986.— № 1.— с. 81–106.
Wei Dai, Wei Ji. A MapReduce Implementation of C4.5 Decision Tree Algorithm // International Journal of Database Theory and Application Vol. 7.— 2014.— № 1.— с. 49–60.
Jerzy, W. Grzymala-Busse, Witold J. Grzymala-Busse. Handling Missing Attribute Values // Data Mining and Knowledge Discovery Handbook.— New York, NY, USA: Springer US, 2005.— с. 37–57.
J. Ross Quinlan. Unknown attribute values in induction // Proceedings of the sixth international workshop on Ma- chine learning.— San Francisco, CA, USA: Morgan Kaufmann Publishers Inc., 1989.— с. 164–168.
Preeti Patidar, Anshu Tiwari. Handling Missing Value in Decision Tree Algorithm // International Journal of Com- puter Applications Vol. 70.— 2013.— № 13.— с. 31–36.
Ian, H. Witten, Eibe Frank, Mark A. Hall. Data Mining: Practical Machine Learning Tools and Techniques.— San Francisco, CA, USA: Morgan Kaufmann Publishers Inc., 2011.— 664 с.
Badr HSSINA, Abdelkarim MERBOUHA, Hanane EZZIKOURI, Mohammed ERRITALI. A comparative study of decision tree ID3 and C4.5 // International Journal of Advanced Computer Science & Applications.— 2014.—
№ 3.— с. 13–19.
Rutvija Pandya, Jayati Pandya. C5.0 Algorithm to Improved Decision Tree with Feature Selection and Reduced Error Pruning // International Journal of Computer Applications Vol. 117.— 2015.— № 16.— с. 18–21.
Do'stlaringiz bilan baham: |