Logistik regressiya tushunchasi va ularning mashinali o’qitishda qo’llanilishi
Logistik regressiya - bu maqsadli o'zgaruvchining ehtimolini bashorat qilish uchun foydalaniladigan nazorat ostida o'rganish tasniflash algoritmi. Maqsadli yoki qaram o'zgaruvchining tabiati dixotomdir, ya'ni faqat ikkita mumkin bo'lgan sinf bo'lishi mumkin.Oddiy so'zlar bilan aytganda, qaram o'zgaruvchi ikkilik xarakterga ega bo'lib, ma'lumotlar 1 (muvaffaqiyat / ha) yoki 0 (muvaffaqiyatsizlik / yo'q) sifatida kodlangan. Matematik jihatdan logistik regressiya modeli P (Y = 1) ni X funksiyasi sifatida bashorat qiladi. Bu spamni aniqlash, qandli diabetni bashorat qilish, saraton kasalligini aniqlash kabi turli tasniflash muammolari uchun ishlatilishi mumkin bo'lgan eng oddiy ML algoritmlaridan biridir.
Logistik regressiya turlari
Umuman olganda, logistik regressiya ikkilik maqsadli o'zgaruvchilarga ega bo'lgan ikkilik logistik regressiyani anglatadi, ammo u tomonidan bashorat qilinishi mumkin bo'lgan maqsadli o'zgaruvchilarning yana ikkita toifasi bo'lishi mumkin. Ushbu toifalar soniga asoslanib, logistik regressiyani quyidagi turlarga bo'lish mumkin :
Ikkilik yoki binom
Bunday tasniflashda, qaram o'zgaruvchining faqat ikkita mumkin bo'lgan turi bo'ladi: 1 va 0. Masalan, bu o'zgaruvchilar muvaffaqiyat yoki muvaffaqiyatsizlikni, ha yoki yo'q, g'alaba yoki mag'lubiyatni va hokazolarni ko'rsatishi mumkin.
Multinomial
Bunday tasniflashda qaram o'zgaruvchi 3 yoki undan ortiq mumkin bo'lgan tartibsiz turlarga yoki miqdoriy ahamiyatga ega bo'lmagan turlarga ega bo'lishi mumkin. Masalan, bu o'zgaruvchilar "A turi" yoki "B turi" yoki "C turi" ni ifodalashi mumkin.
Ordinal
Bunday tasniflashda qaram o'zgaruvchi 3 yoki undan ortiq mumkin bo'lgan tartiblangan turlarga yoki miqdoriy ahamiyatga ega bo'lgan turlarga ega bo'lishi mumkin. Misol uchun, bu o'zgaruvchilar "yomon" yoki "yaxshi", "juda yaxshi", "a'lo" ni ko'rsatishi mumkin va har bir turkumda 0,1,2,3 kabi ballar bo'lishi mumkin.
Logistik regressiya taxminlari
Logistik regressiyani amalga oshirishga kirishdan oldin, biz bir xil bo'lgan quyidagi taxminlarni bilishimiz kerak - Ikkilik logistik regressiya holatida maqsadli o'zgaruvchilar har doim ikkilik bo'lishi kerak va kerakli natija 1-daraja omili bilan ifodalanadi.
Modelda ko'p kollinearlik bo'lmasligi kerak, ya'ni mustaqil o'zgaruvchilar bir-biridan mustaqil bo'lishi kerak. Biz modelimizga mazmunli o'zgaruvchilarni kiritishimiz kerak.Logistik regressiya uchun katta namuna hajmini tanlashimiz kerak.
Regressiya modellari:
Ikkilik logistik regressiya modeli - Logistik regressiyaning eng oddiy shakli ikkilik yoki binomial logistik regressiya bo'lib, unda maqsad yoki qaram o'zgaruvchining faqat ikkita mumkin bo'lgan turi 1 yoki 0 bo'lishi mumkin.
Ko'p nomli logistik regressiya modeli - Logistik regressiyaning yana bir foydali shakli multinomial logistik regressiya bo'lib, unda maqsad yoki qaram o'zgaruvchi 3 yoki undan ortiq mumkin bo'lgan tartibsiz turlarga, ya'ni miqdoriy ahamiyatga ega bo'lmagan turlarga ega bo'lishi mumkin.
Logistik regressiyaning eng oddiy shakli ikkilik yoki binomial logistik regressiya bo'lib, unda maqsadli yoki qaram o'zgaruvchi faqat 2 ta mumkin bo'lgan 1 yoki 0 turga ega bo'lishi mumkin. Bu bizga bir nechta bashorat qiluvchi o'zgaruvchilar va ikkilik/binomli maqsadli o'zgaruvchi o'rtasidagi munosabatni modellashtirish imkonini beradi. Logistik regressiya holatida chiziqli funktsiya asosan boshqa funktsiyaga kirish sifatida ishlatiladi, masalan, quyidagi munosabatda:
Sigmasimon egri chiziqni quyidagi grafik yordamida tasvirlash mumkin. Biz y o'qining qiymatlari 0 dan 1 gacha ekanligini va o'qni 0,5 da kesib o'tishini ko'rishimiz mumkin.
Sinflarni ijobiy yoki salbiyga bo'lish mumkin. Chiqarish 0 dan 1 gacha bo'lsa, ijobiy sinf ehtimoli ostida bo'ladi. Bizning amalga oshirishimiz uchun biz gipoteza funktsiyasining natijasini ≥0,5 bo'lsa, ijobiy, aks holda salbiy deb izohlaymiz.
Quyidagi kabi teta bilan ifodalangan funksiyalardagi og‘irliklar yordamida algoritm qanchalik yaxshi ishlashini o‘lchash uchun biz yo‘qotish funksiyasini ham aniqlashimiz kerak.
Endi, yo'qotish funktsiyasini aniqlagandan so'ng, bizning asosiy maqsadimiz yo'qotish funktsiyasini minimallashtirishdir. Buni og'irliklarni o'rnatish, ya'ni og'irliklarni oshirish yoki kamaytirish orqali amalga oshirish mumkin. Har bir og'irlik w.r.t yo'qotish funktsiyasining hosilalari yordamida biz qaysi parametrlar katta vaznga ega bo'lishi kerakligini va nima kichikroq bo'lishi kerakligini bilishimiz mumkin edi.
Quyidagi gradient tushish tenglamasi, agar parametrlarni o'zgartirsak, yo'qotish qanday o'zgarishini aytadi
Pythonda amalga oshirish
Endi biz Pythonda yuqoridagi binomial logistik regressiya kontseptsiyasini amalga oshiramiz. Shu maqsadda biz har biri 50 tadan 3 ta sinfga ega bo'lgan "iris" nomli ko'p o'zgaruvchan gullar ma'lumotlar to'plamidan foydalanmoqdamiz, lekin biz birinchi ikkita xususiyat ustunidan foydalanamiz. Har bir sinf iris gulining bir turini ifodalaydi.
Birinchidan, kerakli kutubxonalarni quyidagi tarzda import qilishimiz kerak
Keyinchalik, iris ma'lumotlar to'plamini quyidagi tarzda yuklang
Biz o'quv ma'lumotlarimizni quyidagicha tuzishimiz mumkin
Keyinchalik, sigmasimon funktsiyani, yo'qotish funktsiyasini va gradient tushishini quyidagicha aniqlaymiz
Endi og'irliklarni quyidagicha ishga tushiring
Quyidagi skript yordamida biz chiqish ehtimolini taxmin qilishimiz mumkin
Keyinchalik, biz modelni baholashimiz va uni quyidagi tarzda chizishimiz mumkin
Do'stlaringiz bilan baham: |