4 ta matematik funksiya
Matematik funksiya bog'liq o'zgaruvchining mustaqil o'zgaruvchilarga nisbatini ifodalaydi. Bunda tahlil qilinadigan ob'ektlar o'lchovli fazodagi nuqtalar sifatida qaraladi . Keyin ob'ekt o'zgaruvchilari
koordinatalar sifatida qabul qilinadi va funksiya quyidagicha ko'rinadi:
mustaqil o'zgaruvchilarning og'irliklari qayerda , ularni izlash klassifikatsiya funksiyasini topish masalasidir.
Shubhasiz, barcha o'zgaruvchilar raqamli parametrlar sifatida ko'rsatilishi kerak. Mantiqiy va toifali o'zgaruvchilarni raqamli o'zgaruvchilarga aylantirish uchun turli usullar qo'llaniladi.
Mantiqiy tiplar odatda 1 va 0 raqamlari bilan kodlanadi. True qiymati 1, noto'g'ri esa 0 deb belgilanadi.
Kategorik o'zgaruvchilarning qiymatlari o'rganilayotgan ob'ektning mumkin bo'lgan holatlarining nomlari. Albatta, bunday holatlar ikkitadan ortiq bo'lishi mumkin. Ularning ismlari ro'yxatda ko'rsatilishi va raqamlanishi kerak. Ro'yxatdagi har bir nom o'z raqami bilan ifodalanishi mumkin. Natijada, toifali o'zgaruvchi raqamli o'zgaruvchiga aylanadi. Misol uchun, o'zgaruvchan kuzatish qiymati = {quyosh, bulutli, yomg'ir} {0, 1, 2} qiymatlari bilan almashtirilishi mumkin.
Tizimdagi dastlabki kategorik o'zgaruvchini ifodalashning yana bir usuli - mumkin bo'lgan qiymatlarni ikkilik xususiyatlar to'plami bilan almashtirish. Ob'ektning mumkin bo'lgan holatlari ro'yxatida nomlar bo'lsa, to'plamda shuncha ko'p ikkilik xususiyatlar mavjud. Ob'ektni tahlil qilishda 1-qiymat ob'ekt holatiga mos keladigan ikkilik atributga beriladi. Qolganlariga 0 qiymati beriladi. Masalan, case o'zgaruvchisi uchun bu qiymatlar {001, 010, 100} bo'ladi.
tasnifi va regresyon qurish muammosini hal qilish va uchun turli xil usullari qaram o'zgaruvchining qiymatini aniqlash uchun turli yo'llarini foydalaning.
5. Klassifikatsiya qoidalarini qurish usullari
Ob'ektni klassifikatsiya uchun elementar qoidalarni shakllantirishning eng oddiy algoritmini ko'rib chiqing. U bitta mustaqil o'zgaruvchining qiymatiga asoslangan qoidalarni tuzadi, shuning uchun adabiyotda u ko'pincha "1-qoida" yoki qisqasi, 1R-algoritmi deb ataladi.
Algoritmning g'oyasi juda oddiy. Har bir mustaqil o'zgaruvchining har qanday mumkin bo'lgan qiymati uchun o'quv namunasidagi ob'ektlarni tasniflaydigan qoida tuziladi. Bunday holda, qoidaning yakuniy qismi bog'liq o'zgaruvchining qiymatini ko'rsatadi, bu ko'pincha mustaqil o'zgaruvchining tanlangan qiymatiga ega ob'ektlarda uchraydi. Bunda qoida xatosi ko'rib chiqilayotgan o'zgaruvchining qiymati bir xil bo'lgan, lekin tanlangan sinfga tegishli bo'lmagan ob'ektlar soni hisoblanadi.
Shunday qilib, har bir o'zgaruvchi uchun qoidalar to'plami olinadi (har bir qiymat uchun). Har bir to'plamning xatolik darajasini baholagandan so'ng, eng kam xatoga ega bo'lgan qoidalar tuzilgan o'zgaruvchi tanlanadi.
Jadvalda keltirilgan misol uchun. 3.1, natijada qoidalar va ularning baholari olinadi, jadvalda keltirilgan. 3.2.
qoidasi
|
xatosi
|
Agar(kuzatilish=quyosh) u xolda (o`yin=yo`q)
|
|
Agar(kuzatilish=bulut) u xolda (o`yin=ha)
|
|
|
|
|
|
|
|
|
|
|
|
3.2-jadval.
Agar o'quv to'plamida mustaqil o'zgaruvchilarning qiymatlari etishmayotgan ob'ektlar bo'lsa, u holda 1R-algoritmi o'zgaruvchining har bir mumkin bo'lgan qiymati uchun bunday ob'ektlarni hisoblab chiqadi.
Ko'rib chiqilayotgan algoritm uchun yana bir muammo - bu o'zgaruvchilarning raqamli qiymatlari. Shubhasiz, agar o'zgaruvchi haqiqiy turga ega bo'lsa, unda mumkin bo'lgan qiymatlar soni cheksiz bo'lishi mumkin. Ushbu muammoni hal qilish uchun bunday o'zgaruvchining qiymatlarining barcha diapazoni intervallarga bo'linadi, shunda ularning har biri o'quv majmuasining ma'lum bir sinfiga mos keladi. Natijada ushbu algoritm ishlashi mumkin bo'lgan diskret qiymatlar to'plami bo'ladi.
Aytaylik, o'zgaruvchan harorat ma'lumotlari jadvalda keltirilgan. 3.1 quyidagi raqamli qiymatlarga va tegishli qaram o'zgaruvchi qiymatlariga ega:
4 5 8 9 10 11 12 12 15 15 20 21 23 25
ha | yo'q | ha ha ha | yo'q yo'q | ha ha ha | yo'q | ha ha | yo'q
Bunday holda, qiymatlar diapazoni quyidagi tarzda intervallarga bo'linishi mumkin:
{4,5 gacha; 4,5-7,5; 7,5-10,5; 10,5-12; 12-17,5; 17,5–20,5; 20,5-24; 24 dan ortiq}
Ushbu algoritm bilan bog'liq jiddiy muammo - bu ortiqcha moslama. Gap shundaki, algoritm eng ko'p mumkin bo'lgan qiymatlarni oladigan o'zgaruvchilarni tanlaydi, chunki ular uchun xato eng kichik bo'ladi. Masalan, kalit bo'lgan o'zgaruvchi uchun (ya'ni, har bir ob'ekt uchun o'ziga xos qiymat) xato nolga teng bo'ladi. Biroq, bunday o'zgaruvchilar uchun qoidalar mutlaqo foydasiz bo'ladi, shuning uchun ma'lum bir algoritm uchun o'quv namunasini shakllantirishda mustaqil o'zgaruvchilarning to'g'ri to'plamini tanlash muhimdir.
Klassifikatsiya masalalarida Naive Bayes, "Bo'l va zabt et", eng kichik kvadratlar, Kohonen usullari qo'llaniladi.
Xulosa qilib shuni ta'kidlash kerakki, 1R-algoritmi o'zining soddaligiga qaramay, ko'p hollarda amalda ancha samarali bo'lib chiqadi. Buning sababi shundaki, ko'plab ob'ektlarni faqat bitta atributga ko'ra klassifikatsiya mumkin. Bundan tashqari, ishlab chiqarilgan qoidalarning etishmasligi olingan natijalarni tushunish va ulardan foydalanishni osonlashtiradi.
Do'stlaringiz bilan baham: |