Jini indeksi,
daromad nisbati,
Variantning qisqarishi
Ki-kvadrat
Ushbu mezonlar har bir atribut uchun qiymatlarni hisoblab chiqadi. Qiymatlar saralanadi va atributlar daraxtga tartib bo'yicha joylashtiriladi, ya'ni yuqori qiymatga ega bo'lgan atribut (axborot olishda) ildizga joylashtiriladi.
Axborot daromadidan mezon sifatida foydalanilganda, biz atributlarni toifali deb hisoblaymiz va Jini indeksi uchun atributlar uzluksiz deb qabul qilinadi.
Entropiya
Entropiya - bu qayta ishlanayotgan ma'lumotlarning tasodifiyligi o'lchovidir. Entropiya qanchalik baland bo'lsa, bu ma'lumotlardan xulosa chiqarish shunchalik qiyin bo'ladi. Tangani varaqlash tasodifiy ma'lumotni taqdim etadigan harakatga misoldir.
Yuqoridagi grafikdan ko'rinib turibdiki, ehtimollik 0 yoki 1 bo'lsa, H(X) entropiyasi nolga teng bo'ladi. Ehtimollik 0,5 bo'lsa, entropiya maksimal bo'ladi, chunki u ma'lumotlarda mukammal tasodifiylikni aks ettiradi va bunday imkoniyat yo'q. natijani mukammal aniqlash.
ID3 qoidasiga amal qiladi - entropiyasi nolga teng bo'lgan novda barg tugunidir va entropiyasi noldan yuqori bo'lgan novdani keyingi bo'linish kerak.
1 atribut uchun matematik entropiya quyidagicha ifodalanadi:
Bu erda S → Joriy holat va Pi → S holatning i hodisasining ehtimoli yoki S holat tugunidagi i sinfining ulushi.
Bir nechta atributlar uchun matematik entropiya quyidagicha ifodalanadi:
Bu erda T → Joriy holat va X → Tanlangan atribut
Ma'lumot olish
Ma'lumot olish yoki IG - bu berilgan atribut o'quv misollarini maqsadli tasnifiga ko'ra qanchalik yaxshi ajratishini o'lchaydigan statistik xususiyatdir. Qaror daraxtini yaratish eng yuqori ma'lumot olish va eng kichik entropiyani qaytaradigan atributni topishdir.
Axborot olish - entropiyaning pasayishi. U berilgan atribut qiymatlari asosida ma'lumotlar to'plamining bo'linishidan keyin bo'linishdan oldingi entropiya va o'rtacha entropiya o'rtasidagi farqni hisoblaydi. ID3 (Iterative Dichotomizer) qarorlar daraxti algoritmi ma'lumot olishdan foydalanadi.
Matematik jihatdan IG quyidagicha ifodalanadi:
Oddiyroq qilib aytganda, biz shunday xulosa qilishimiz mumkin:
Bu erda "oldin" bo'linishdan oldingi ma'lumotlar to'plami, K - bo'linish natijasida hosil qilingan kichik to'plamlar soni va (j, keyin) bo'linishdan keyingi j kichik to'plami.
Jini indeksi
Siz Gini indeksini ma'lumotlar to'plamidagi bo'linishlarni baholash uchun ishlatiladigan xarajat funktsiyasi sifatida tushunishingiz mumkin. U har bir sinfning kvadratik ehtimoli yig'indisini bittadan ayirish yo'li bilan hisoblanadi. U kattaroq bo'limlarni va amalga oshirishni osonlashtiradi, ma'lumot olish esa alohida qiymatlarga ega bo'lgan kichikroq qismlarni qo'llab-quvvatlaydi.
Jini indeksi
Gini indeksi "Muvaffaqiyat" yoki "Muvaffaqiyatsizlik" toifali maqsadli o'zgaruvchilar bilan ishlaydi. U faqat Ikkilik bo'linishlarni bajaradi.
Jini indeksining yuqori qiymati yuqori tengsizlikni, yuqori heterojenlikni anglatadi.
Do'stlaringiz bilan baham: |