Oddiy misol
Yuqori sierra, Kaliforniyadagi go'zal tog 'tizmasi yaqinida yashaydigan bag'ishlangan chang'ichilar, qaror chiqarish daraxtini xohlaydi mashinasini tog'larda joylashgan tosh markaziga olib boradi. Shunday qilib, biz ikki darajadagi muammoga egalik qilamiz. Ha ha / yo'q 8 o'zgaruvchilarga asoslangan.
Ichki tugunlar xususiyatlar (atributlar) ni ifodalovchi daraxtdir. Har bir tomoni bir atribut qiymati. Har bir yaproq tugunida sinf qiymati beriladi. Qaror daraxti qurilishida ishlatiladigan ma'lumotlar keltirilgan Jadvaldagi har bir satr bir kun uchun ma'lumotni o'z ichiga oladi va shunga o'xshash namuna. Yaxshiroq tekshiruvdan so'ng biz 6 va 7-qatorlarni bir- biriga zid kelayotganini ko'ramiz.
Shunday qilib, deterministik tasniflash algoritmi barcha ma'lumotlarni to'g'ri tasniflashi mumkin emas. Shuning uchun noto'g'ri tasniflangan ma'lumotlar soni > 1 bo'lishi kerak. Shunday qilib, ma'lumotlar optimallashtiradi. Ma'lumotlardan bunday daraxt qanday yaratilgan? Bu savolga javob berish uchun, bizni birinchi navbatda o'zimizni son jihatdan juda ko'p qadriyatlar bilan ajratib qo'yamiz. Chunki atributlar soni ham soniyadir va har bir atribut har bir yo'lda bir marta sodir bo'lishi mumkin, juda ko'p sonli qaror daraxtlari mavjud. Bu oddiy, aniq algoritm.
Daraxt qurilishi shunchaki barcha daraxtlarni yaratadi, shunda har bir daraxt uchun hisoblab chiqiladi ma'lumotlar noto'g'ri tasniflash soni va oxirida daraxtni tanlang
eng kam xato soni bilan. Shunday qilib biz maqbul algoritmga ega bo'lardik (ta'lim ma'lumotlari uchun xatoliklar ma'nosida) daraxt o'rganish bo'yicha qaror qabul qiladi.
Ushbu algoritmning jiddiy kamchiliklari uning qabul qilinmas darajada yuqori hisoblanishidir atributlar soni biroz kattaroq bo'lganda. Biz .. qilamiz ildizdan boshlab, o'z-o'zidan ishlab chiqaradigan, intizomiy algoritmni ishlab chiqadi qaror daraxti. Birinchidan, eng yuqori ma'lumot olish xususiyati (Snow_ Dist) ildiz tuguniga barcha atributlar majmuasidan tanlangan. Har bir attribut qiymati (<100,
> 100) daraxtda filial mavjud. Endi har bir filial uchun bu jarayon takrorlanadi
o'z-o'zidan. To'siqlarni yaratish jarayonida eng yuqori ma'lumotli atribut foydalanilmagan atributlar orasida daromad har doim ham tanlangan ochko'z strategiyaning ruhi.
14.1-rasm
Toshlar tasniflash muammolari uchun qaror daraxti. Tugmalarning o'ng tomonidagi ro'yxatlarda, tegishli o'quv ma'lumotlarining soni berilgan. Quyoshli = bara barglari tuguniga e'tibor bering uchta misolning faqat ikkitasi to'g'ri tasniflanadi.
Tadqiqot loyihasida appenditsit tashxisi uchun ekspertizasi tizimi bo'lgan LEXMED loyihasi bemor ma'lumotlarining bazasi ustida ishlab chiqilgan [ES99, SE00]. Bu tizim maksimal entropiyaning usuli bilan ishlaydi, Sectda tasvirlanadi.
Endi biz LEXMED ma'lumotlar bazasidan tashxis qo'yish uchun qaror daraxtini yaratish uchun foydalanamiz C4.5 bilan appenditsit. Atributlar sifatida ishlatiladigan alomatlar faylda aniqlangan app.names:
Definition of the classes and attributes ||Classes 0=appendicitis negative | 1=appendicitis positive 0,1.
||Attributes |Age: continuous.
Sex_(1=m 2=w): 1,2.
Pain_Quadrant1_(0=no 1=yes): 0,1.
Pain_Quadrant2_(0=no 1=yes): 0,1.
Pain_Quadrant3_(0=no 1=yes): 0,1.
Pain_Quadrant4_(0=no 1=yes): 0,1.
Local_guarding_(0=no 1=yes): 0,1.
Generalized_guarding_(0=no 1=yes): 0,1.
Rebound_tenderness_(0=no 1=yes): 0,1.
Pain_on_tapping_(0=no 1=yes): 0,1.
Pain_during_rectal_examination_(0=no 1=yes): 0,1.
Temp_axial: continuous.
Temp_rectal: continuous.
Leukocytes: continuous.
Diabetes_mellitus_(0=no 1=yes): 0,1
Ko'rib turganimizdek, turli xil og'riq belgilari kabi ko'p tomonlama atributlardan tashqari, yosh va olov harorati kabi doimiy alomatlar ham yuzaga keladi. Quyida ma'lumotlar faylini tayyorlash, app.data, har bir satrda bir voqea tasvirlangan. Birinchi satrda uchinchi kvadrantda og'rigan 19 yoshli erkak bemor ilova), ikkita olov 36,2 va 37,8 daraja Selsiy qiymatini, leykotsit qiymatini ko'rsatadi 13400 dan oshgan va ijobiy tashxis, ya'ni yallig'langan appendik.
0.1.0.1.0.1.1.0.362.378.13400.0.1
0.1.0.1.0.1.1.1.383.385.18100.0.1
0.1.0.1.0.1.1.0.364.374.11800.0.1
0.1.1.0.0.0.0.0.362.370.09300.0.0
1.1.1.0.1.1.1.376.380.13600.1.1
1.1.1.1.377.387.21100.0.1
1,1,1,0,390,?,14100,0,1
0.1.0.1.0.1.1.0.372.382.11300.0.1
0.1.0.0.0.1.1.1.370.379.15300.0.1
0.1.0.1.0.1.1.0.367.376.17400.0.1
0.1.0.0.0.1.1.0.361.375.17600.0.1
0.1.0.1.0.1.1.0.364.370.12900.0.0 Ma'lumotlar bazasi haqida batafsil ma'lumot bermasdan, faqatgina
eslatib o'tish zarur kasalxonaga kelgach appenditsitga shubha qilingan
bemorlar ma'lumotlar bazasiga kiritilganidan keyin operatsiya qilindi. Biz
ettinchi qatorda turibmiz C4.5 da kam qiymatlar bilan ish olib borishi
mumkin. Ma'lumotlar 9764 ta holatni o'z ichiga oladi.
unixprompt> c4.5 -f app -u -m 100
C4.5 [release 8] decision tree generator
Wed Aug 23 13:13:15 2006
Read 9764 cases (15 attributes) from app.data Decision Tree:
Leukocytes <= 11030 :
| Rebound_tenderness = 0:
| | Temp_rectal > 381 : 1 (135.9/54.2) | | Temp_rectal <= 381 :
| | | Local_guarding = 0: 0 (1453.3/358.9)
| | | Local_guarding = 1:
| | | | Sex_(1=m 2=w) = 1: 1 (160.1/74.9)
| | | | Sex_(1=m 2=w) = 2: 0 (286.3/97.6)
| Rebound_tenderness = 1:
| | Leukocytes <= 8600 :
| | | Temp_rectal > 378 : 1 (176.0/59.4)
| | | Temp_rectal <= 378 :
| | | | Sex_(1=m 2=w) = 1:
| | | | | Local_guarding = 0: 0 (110.7/51.7)
| | | | | Local_guarding = 1: 1 (160.6/68.5)
| | | | Sex_(1=m 2=w) = 2:
| | | | | Age <= 14 : 1 (131.1/63.1)
| | | | | Age > 14 : 0 (398.3/137.6)
| | Leukocytes > 8600 :
| | | Sex_(1=m 2=w) = 1: 1 (429.9/91.0)
| | | Sex_(1=m 2=w) = 2:
| | | | Local_guarding = 1: 1 (311.2/103.0)
| | | | Local_guarding = 0:
| | | | | Temp_rectal <= 375 : 1 (125.4/55.8)
| | | | | Temp_rectal > 375 : 0 (118.3/56.1)
Leukocytes > 11030 :
| Rebound_tenderness = 1: 1 (4300.0/519.9) | Rebound_tenderness = 0:
| | Leukocytes > 14040 : 1 (826.6/163.8)
| | Leukocytes <= 14040 :
| | | Pain_on_tapping = 1: 1 (260.6/83.7)
| | | Pain_on_tapping = 0:
| | | | Local_guarding = 1: 1 (117.5/44.4)
| | | | Local_guarding = 0:
| | | | | Temp_axial <= 368 : 0 (131.9/57.4)
| | | | | Temp_axial > 368 : 1 (130.5/57.8)
Simplified Decision Tree:
Leukocytes > 11030 : 1 (5767.0/964.1) Leukocytes <= 11030 :
| Rebound_tenderness = 0:
| | Temp_rectal > 381 : 1 (135.9/58.7)
| | Temp_rectal <= 381 : | | | Local_guarding = 0: 0 (1453.3/370.9)
| | | Local_guarding = 1:
| | | | Sex_(1=m 2=w) = 1: 1 (160.1/79.7)
| | | | Sex_(1=m 2=w) = 2: 0 (286.3/103.7)
| Rebound_tenderness = 1:
| | Leukocytes > 8600 : 1 (984.7/322.6)
| | Leukocytes <= 8600 | | | Temp_rectal > 378 : 1 (176.0/64.3)
| | | Temp_rectal <= 378 :
| | | | Sex_(1=m 2=w) = 1:
| | | | | Local_guarding = 0: 0 (110.7/55.8)
| | | | | Local_guarding = 1: 1 (160.6/73.4)
| | | | Sex_(1=m 2=w) = 2:
| | | | | Age <= 14 : 1 (131.1/67.6)
| | | | | Age > 14 : 0 (398.3/144.7)
Evaluation on training data (9764 items): Before Pruning After Pruning
Size Errors Size Errors Estimate 37 2197(22.5%) 21 2223(22.8%) (23.6%) << Evaluation on test data (4882 items):
Before Pruning After Pruning
Size Errors Size Errors Estimate 37 1148(23.5%) 21 1153(23.6%) (23.6%) << (a) (b) <-classified as
758 885 (a): class 0 268 2971 (b): class 1
Biz tekshirilgan sohaning bir nechta algoritmini yaxshilab qamrab oldik qaror qabul qilish daraxtini o'rganish, janob Bayes tarmoqlari va eng yaqin qo'shni usul. Ushbu algoritmlar turli ilovalarda barqaror va samarali ishlatiladi va shu bilan A.I. va ma'lumotlar konida standart repertuariga kiradi. Ushbu Xuddi shu narsa "boshqaruvchi" va ishsiz ishlaydigan kumeleme algoritmlari uchun ham amal qiladi masalan, qidiruv tizimidagi ilovalarda topiladi. Taqdirlashni o'rganish
chunki mashinasozlikning boshqa sohasi ham hech qanday rahbarni qo'llamaydi. Boshqarishdan farqli o'laroq o'quvchiga teglar sifatida to'g'ri xatti-harakatlar yoki javoblarni qabul qilsa o'quv ma'lumotlarida faqat hozirgi va keyin ijobiy yoki salbiyroq o'rganish atrof-muhit haqida hisobot olinadi. Chapda. 10 Buni qanday namoyon etamiz ishlaydi. Yarim nazardan chetlatilgan o'rganish, yosh kichik maydonda vazifa juda qiyin emas juda ko'p sonli ta'lim ma'lumotlarining juda oz qismi bo'lgan kompyuterni o'rganish yorlig'i.
Takrorlash uchun savollar:
Asosiy tamoyillar va idrok etishning yaxlitligi.
Belgilarni tanish.
15. MA’RUZA
NEYRON TORLARI
Do'stlaringiz bilan baham: |