Moluch 114 c indd



Download 2,33 Mb.
bet47/59
Sana20.07.2022
Hajmi2,33 Mb.
#829409
1   ...   43   44   45   46   47   48   49   50   ...   59
Bog'liq
moluch 114 ch1 2

a11 , a12 , a13 , …, a1 j | c1
a21 , a22 , a23 , …, a2 j | c2

ai1 , ai2 , ai3 , …, aij | ci .
Выполним классификацию на тестовой выборке при тех же входных параметрах для получения спрогнозиро- ванного значения выходного параметра:
a11 , a12 , a13 , …, a1 j | ?
a21 , a22 , a23 , …, a2 j |?

ai1 , ai2 , ai3 , …, aij |?,




где знак вопроса «?» обозначает неизвестное значение атрибута.
Для того чтобы выявить ключевые атрибуты, от изме- нений значений которых зависит результат классифика- ции, поочередно заменим каждый из них во всех наборах атрибутов в выборке указателем неизвестного значения.
?,?, a13 , …, a1 j | ?
?, ?, a23 , …, a2 j |?

?, ?, ai3 , …, aij |?.
Вес отдельных атрибутов
aij

в наборах будет опреде-



Тестовая выборка в начале цикла поиска ключевых па- раметров будет выглядеть следующим образом:

?, a12 , a13 , …, a1 j | ?


?, a22 , a23 , …, a2 j |?

?, ai2 , ai3 , …, aij |?.
С каждой итерацией неизвестное значение «?» будет замещать следующий атрибут aij на интервале от ai1 до
ляться как соотношение количества подмножеств, в кото- рых присутствует атрибут, вызвавших изменение резуль- тата классификации при замене значений указателями
«?», к общему количеству атрибутов во всех таких под- множествах.
Распределение весов атрибутов a j в пределах одного значения класса c выполняется с помощью подсчета суммы рассчитанных, как указано выше, весов атрибутов
aij , находящихся на одной и той же позиции j, из разных наборов Ai .

aij
для j от 1 до
nT , где nT

  • количество атрибутов

Алгоритм:

в каждом из наборов выборки, i от 1 до NT , где NT — общий размер тестовой выборки. Всего необходимо вы- полнить j итераций.
Так на последней итерации получим:
a11 , a12 , a13 , …, ? | ?

  1. Обучение C4.5 с обучающей выборкой данных. Все значения параметров на входе aij и выходе ci в обучаю- щей выборке известны.

  2. Классификация C4.5 с тестовой выборкой. Значе- ния параметров на выходе ci в тестовой выборке заме-

a21 , a22 , a23 , …, ? |?

ai1 , ai2 , ai3 , …, ? |?.
нены указателями неизвестного значения «?».

  1. Поиск ключевых атрибутов — классификация C4.5 с тестовой выборкой с отсутствующими значениями

атрибутов aij . Количество итераций равно количеству ат-

На каждой итерации проводится сравнение результа- тов классификации — значений ci для одного и того же
рибутов j в наборе на входе 𝐴𝐴𝐴𝐴𝑖𝑖𝑖𝑖. На каждой итерации один из атрибутов a1 j во всех наборах Ai заменяется указате-

набора атрибутов из тестовой выборки без отсутствую-
щих значений входящих данных и из тестовой с отсутству- ющим значением. Если при замене только одного из атри-
лем неизвестного значения «?». Полученные в результате классификации значения ci сравниваются с соответству- ющими значениями ci из п. 2. Если при замене только од-

бутов
aij
значение
ci отличается от соответствующего
ного из атрибутов
aij
из набора
Ai значения
ci не сов-

ему, спрогнозированного ранее в тестовой выборке, то
пали, а замена остальных атрибутов
aij
не вызывает из-

это будет означать, что параметр, который имеет наиболь- ший вес в отдельном наборе входных и выходных парамет- ров, найден.
В пределах одного и того же значения класса
c определение ключевого для него атрибута a j выполня-
менения результата классификации, то ключевой атрибут для набора входных и выходных параметров найден. Для выбранного значения класса c веса, найденных на одной и той же позиции j в разных наборах Ai , ключевых атри-
бутов a j распределяются согласно количеству таких

ется путем подсчета количества атрибутов, расположенных на одной и той же позиции j в разных наборах i, с наиболь- шим весом из тех наборов, где результатом предваритель- ной классификации являлось значение выбранного класса
c. Соответственно количеству найденных на одной и той же позиции j в разных наборах i ключевых атрибутов распре- деляются их веса для каждого значения класса c.
При этом может возникнуть ситуация, когда сразу не- сколько параметров в одном и том же наборе, при заме- щении их в выборке указателями неизвестного значения, вызывают изменение результата классификации. Или же есть необходимость провести дальнейшее распределение весов оставшихся атрибутов. В таком случае нужно про- верять влияние не каждого атрибута по отдельности, а всех возможных комбинаций атрибутов. Рассмотрим те- перь влияние подмножеств параметров, взятых из набо-
наборов.
Распределение весов оставшихся атрибутов, не рас- смотренных в п. 3 — классификация C4.5 с тестовой вы- боркой с отсутствующими значениями комбинаций атри-

C

j
бутов a1 j . Вычисления проводятся отдельно для каждого набора Ai . Количество итераций для каждого набора Ai равно сумме чисел сочетаний k без повторений из j-1 атрибутов по k=2…j-1. При чем j-1 вместо j используется только в случае найденного в п. 3 ключевого атрибута aij для набора Ai . Поочередно выполняется перебор всех

j
возможных сочетаний C k без повторений параметров aij

j
(кроме ключевого из п. 3) из набора Ai с указателями не- известного значения «?» вместо значений параметров aij в сочетаниях. Учитываются только те сочетания Ck , при которых результат классификации ci набора Ai не совпал

ров данных
Ai .
с результатом в п. 2. Вес выбранного атрибута aij рассчи-

Например, комбинации из 2-ух неизвестных значений атрибутов:
тывается как соотношение числа таких сочетаний с этим атрибутом к общему количеству элементов в таких соче-




таниях с выбранным атрибутом aij . Для выбранного зна- чения класса c веса атрибутов a j на одной и той же пози-
только возможности хорошо изученного алгоритма С4.5. Данный метод также, без существенных изменений, можно

ции j в разных наборах
Ai определяются как сумма их ве-
адаптировать и для обновленной версии алгоритма постро-

сов в этих наборах
Ai .
ения деревьев принятия решений С5.0 [10]. Результаты,

Разработанный метод позволяет определить ключевые для выбора того или иного класса атрибуты, а также распре- делять веса остальных входящих параметров. Реализация метода может быть выполнена без каких-либо громоздких надстроек с применением сторонних методов, используя
полученные с помощью данного метода, смогут найти при- менение в качестве предварительной обработки данных для построения более эффективных моделей прогнозирования, где так или иначе необходимо учитывать влияние каждого из всех доступных параметров в выборках.

Литература:





  1. Lior Rokach, Oded Maimon. Data Mining with Decision Trees: Theory and Applications.— River Edge, NJ, USA: World Scientific Publishing Co., Inc., 2008.— 244 с.

  2. J. Ross Quinlan. C4.5: programs for machine learning.— San Francisco, CA, USA: Morgan Kaufmann Publishers Inc., 1993.— 302 с.

  3. J. Ross Quinlan. Induction of Decision Trees // Machine Learning.— 1986.— № 1.— с. 81–106.

  4. Wei Dai, Wei Ji. A MapReduce Implementation of C4.5 Decision Tree Algorithm // International Journal of Database Theory and Application Vol. 7.— 2014.— № 1.— с. 49–60.

  5. Jerzy, W. Grzymala-Busse, Witold J. Grzymala-Busse. Handling Missing Attribute Values // Data Mining and Knowledge Discovery Handbook.— New York, NY, USA: Springer US, 2005.— с. 37–57.

  6. J. Ross Quinlan. Unknown attribute values in induction // Proceedings of the sixth international workshop on Ma- chine learning.— San Francisco, CA, USA: Morgan Kaufmann Publishers Inc., 1989.— с. 164–168.

  7. Preeti Patidar, Anshu Tiwari. Handling Missing Value in Decision Tree Algorithm // International Journal of Com- puter Applications Vol. 70.— 2013.— № 13.— с. 31–36.

  8. Ian, H. Witten, Eibe Frank, Mark A. Hall. Data Mining: Practical Machine Learning Tools and Techniques.— San Francisco, CA, USA: Morgan Kaufmann Publishers Inc., 2011.— 664 с.

  9. Badr HSSINA, Abdelkarim MERBOUHA, Hanane EZZIKOURI, Mohammed ERRITALI. A comparative study of decision tree ID3 and C4.5 // International Journal of Advanced Computer Science & Applications.— 2014.—

№ 3.— с. 13–19.

  1. Rutvija Pandya, Jayati Pandya. C5.0 Algorithm to Improved Decision Tree with Feature Selection and Reduced Error Pruning // International Journal of Computer Applications Vol. 117.— 2015.— № 16.— с. 18–21.




Download 2,33 Mb.

Do'stlaringiz bilan baham:
1   ...   43   44   45   46   47   48   49   50   ...   59




Ma'lumotlar bazasi mualliflik huquqi bilan himoyalangan ©hozir.org 2024
ma'muriyatiga murojaat qiling

kiriting | ro'yxatdan o'tish
    Bosh sahifa
юртда тантана
Боғда битган
Бугун юртда
Эшитганлар жилманглар
Эшитмадим деманглар
битган бодомлар
Yangiariq tumani
qitish marakazi
Raqamli texnologiyalar
ilishida muhokamadan
tasdiqqa tavsiya
tavsiya etilgan
iqtisodiyot kafedrasi
steiermarkischen landesregierung
asarlaringizni yuboring
o'zingizning asarlaringizni
Iltimos faqat
faqat o'zingizning
steierm rkischen
landesregierung fachabteilung
rkischen landesregierung
hamshira loyihasi
loyihasi mavsum
faolyatining oqibatlari
asosiy adabiyotlar
fakulteti ahborot
ahborot havfsizligi
havfsizligi kafedrasi
fanidan bo’yicha
fakulteti iqtisodiyot
boshqaruv fakulteti
chiqarishda boshqaruv
ishlab chiqarishda
iqtisodiyot fakultet
multiservis tarmoqlari
fanidan asosiy
Uzbek fanidan
mavzulari potok
asosidagi multiservis
'aliyyil a'ziym
billahil 'aliyyil
illaa billahil
quvvata illaa
falah' deganida
Kompyuter savodxonligi
bo’yicha mustaqil
'alal falah'
Hayya 'alal
'alas soloh
Hayya 'alas
mavsum boyicha


yuklab olish