Logistik regressiya modelini o'rganish
Mantiqiy regressiya algoritmining koeffitsientlari (beta qiymatlari b) sizning mashg'ulotlaringiz ma'lumotlari asosida hisoblanishi kerak. Bu maksimal ehtimollik bahosi yordamida amalga oshiriladi.
Mumkinlik maksimal bahosi
Bu turli xil mashina o'rganish algoritmlari tomonidan ishlatiladigan keng tarqalgan o'rganish algoritmi, garchi u sizning ma'lumotlaringizni taqsimlash to'g'risida taxminlarni keltirib chiqarsa ham (bu haqida ma'lumot tayyorlash haqida gaplashganda).
Yaxshi koeffitsientlar standart sinf uchun 1 ga yaqin (masalan, erkak) va boshqa sinf uchun 0 ga yaqin (masalan, ayol) qiymatni bashorat qiladigan modelga olib keladi. Mantiqiy regressiya uchun maksimal ehtimollik sezgisi shundan iboratki, qidirish protsedurasi koeffitsientlar (beta qiymatlari) qiymatlarini model tomonidan taxmin qilingan ehtimoliy xatolarni ma'lumotlardagi qiymatlarga nisbatan kamaytiradi (masalan, agar ma'lumotlar boshlang'ich tayyorgarlik bo'lsa, ehtimollik 1). sinf).
Biz matematikaga maksimal ehtimollik bilan kirmaymiz. Ta'lim ma'lumotlari uchun eng yaxshi koeffitsient qiymatlarini optimallashtirish uchun minimallashtirish algoritmi ishlatilganligini aytish kifoya. Bu ko'pincha amaliy optimallashtirishning samarali algoritmi (masalan, Quazi-Nyuton usuli) yordamida amalga oshiriladi.
Logistikani o'rganganingizda, uni o'zingizning nolingizdan ancha sodda gradient tushirish algoritmi yordamida amalga oshirishingiz mumkin.
Logistik regressiya bilan bashorat qilish
Logistik regressiya modeli bilan bashorat qilish raqamlarni logistik regressiya tenglamasiga kiritish va natijani hisoblash kabi osondir.
Buni aniq bir misol bilan qilaylik.
Aytaylik, bizda erkak yoki ayolning balandligi (mutlaqo xayoliy) ga qarab erkak yoki ayol bo'lishini taxmin qiladigan modelimiz bor. Balandligi 150 sm ni hisobga olsak, bu erkak yoki ayol.
B0 = -100 va b1 = 0,6 koeffitsientlarini aniqladik. Yuqoridagi tenglamadan foydalanib, biz erkakning 150 sm yoki undan ko'proq rasmiy P (odam | balandligi = 150) bo'lish ehtimolini hisoblaymiz. E uchun EXP () ni ishlatamiz, chunki agar siz ushbu misolni elektron jadvalingizda chop qilsangiz, undan foydalanishingiz mumkin:
y = e ^ (b0 + b1 * X) / (1 + e ^ (b0 + b1 * X))
y = exp (-100 + 0,6 * 150) / (1 + EXP (-100 + 0,6 * X))
у = 0,0000453978687
Yoki nolga yaqin odamning erkak ekanligi ehtimoli.
Amalda biz ehtimolliklardan bevosita foydalanishimiz mumkin. Bu tasniflash bo'lgani uchun va biz aniq javob olishni istaganimiz sababli, ehtimolliklarni ikkilik sinf qiymatiga bog'lashimiz mumkin, masalan:
0, agar p (erkak) & lt; 0,5
1, agar р (erkaklarniki) = 0,5
Endi biz logistik regressiya yordamida qanday bashorat qilishni bilamiz, keling, ushbu texnikadan to'liq foydalanish uchun ma'lumotlarni qanday tayyorlashimiz mumkinligini ko'rib chiqamiz.
Logistik regressiya uchun ma'lumot tayyorlang
Ma'lumotlaringizdagi taqsimot va munosabatlar to'g'risidagi logistik regressiya natijasida qilingan taxminlar asosan chiziqli regressiya taxminlari bilan bir xil.
Ushbu taxminlarni aniqlashga ko'p tadqiqotlar olib borildi va aniq ehtimollik va statistik til qo'llaniladi. Mening maslahatim ularni qo'llanma yoki qoida sifatida ishlatish va turli xil ma'lumotlarni tayyorlash sxemalarida tajriba o'tkazishdir.
Oxir oqibat, bashoratli modellashtirish mashinasini o'rganish loyihalarida siz natijalarni talqin qilishdan ko'ra, aniq bashorat qilishga e'tibor qaratasiz. Shunday qilib, agar model barqaror va yaxshi ishlayotgan bo'lsa, siz ba'zi taxminlarni buzishingiz mumkin.
Ikkilik inferning o'zgaruvchanligi Bu aytib o'tganimizdek aniq bo'lishi mumkin, ammo logistik regressiya ikkilik (ikki klassli) tasniflash muammolari uchun mo'ljallangan. U misol 0 yoki 1 tasnifiga bog'lanishi mumkin bo'lgan odatiy sinfga tegishli bo'lishi ehtimolini oldindan aytib beradi.
Shovqinni olib tashlang: Logistik regressiya (o'zgaruvchi) o'zgaruvchida hech qanday xato bo'lmaydi, tashqi ma'lumotlar va ehtimol tasniflangan misollarni o'zingizning ma'lumotingizdan olib tashlash haqida o'ylab ko'ring.
Gaussning taqsimlanishi: Logistik regressiya - bu chiziqli algoritm (chiqishda chiziqli bo'lmagan konversiya bilan), kirish parametrlari va chiqish ma'lumotlari o'rtasida chiziqli bog'liqlik mavjud. Ushbu chiziqli munosabatlarni yaxshiroq ochib beradigan kiritish parametrlarining ma'lumotlar uzatilishi yanada aniq modelga olib kelishi mumkin. Masalan, ushbu aloqani yaxshiroq ochish uchun log, root, Box-Cox va boshqa o'lchovli o'zgarishlardan foydalanishingiz mumkin.
Korrelyatsiya qilingan kirishlarni olib tashlang Chiziqli regressiya singari, agar sizda bir nechta yuqori darajadagi korrelyatsiya qilingan kirishlar bo'lsa, model mos bo'lishi mumkin. Barcha kirishlar o'rtasidagi o'zaro bog'liqlikni hisoblash va yuqori darajada bog'liq bo'lgan kirishlarni olib tashlashni ko'rib chiqing.
Birlashtirmang: koeffitsientlarni ko'rib chiqadigan ehtimollik ehtimolini baholash jarayoni birlashtirilmasligi mumkin. Bu sizning ma'lumotlaringizda juda ko'p bog'liq bo'lgan ma'lumotlar mavjud bo'lsa yoki ma'lumotlar juda kam bo'lsa (masalan, sizning kiritishingizda juda ko'p nol bor) bo'lishi mumkin.
Do'stlaringiz bilan baham: |