MUSTAQIL ISH
TUZUVCHI:ORIPOV AVAZBEK
MAVZU:Mashinani o'rganish algoritmlarini tasniflash: Chiziqli regressiya, tasniflash va klasterlash
Mashinada o'qitish (ML) bu tajriba orqali avtomatik ravishda takomillashadigan kompyuter algoritmlarini o'rganishdir.[1] Ning pastki qismi sifatida qaraladi sun'iy intellekt. Mashinada o'qitish algoritmlari namunaviy ma'lumotlarga asoslanib, "o'quv ma'lumotlari", bashorat qilish yoki aniq dasturlashsiz qaror qabul qilish uchun.[2] Mashinali o'qitish algoritmlari kabi turli xil dasturlarda qo'llaniladi elektron pochta orqali filtrlash va kompyuterni ko'rish, kerakli vazifalarni bajarish uchun an'anaviy algoritmlarni ishlab chiqish qiyin yoki maqsadga muvofiq emas.
Mashinada o'qitishning bir qismi bilan chambarchas bog'liq hisoblash statistikasi, bu kompyuterlar yordamida bashorat qilishga qaratilgan; ammo hamma mashinada o'rganish statistik o'rganish emas. O'rganish matematik optimallashtirish mashinasozlik sohasiga metodlar, nazariya va dastur sohalarini etkazib beradi. Ma'lumotlarni qazib olish e'tiborini qaratish bilan bog'liq bo'lgan ta'lim sohasidir kashfiyot ma'lumotlarini tahlil qilish orqali nazoratsiz o'rganish.[4][5] Ishbilarmonlik muammolari bo'yicha uni qo'llashda mashinasozlik deb ham ataladi.
ta'lim
Machine Learning matematik optimallashtirish bilan katta o'xshashliklarga ega, bu usullar, nazariyalar va amaliy sohalarni ta'minlaydi.
Mashinada o'qitish berilgan misollar to'plamiga (mashqlar to'plamiga) nisbatan yo'qotish funktsiyasining "minimallashtirish muammolari" sifatida shakllantirilgan. Ushbu xususiyat o'qitilayotgan model tomonidan taxmin qilingan qiymatlar va har bir misol uchun kutilgan qiymatlar o'rtasidagi tafovutni anglatadi.
Pirovard maqsadi - modelga mashg'ulotlar to'plamida bo'lmagan holatlar to'plamini to'g'ri bashorat qilishni o'rgatish.
Algoritmning turli toifalarini ajratish mumkin bo'lgan usul, bu ma'lum bir mashina o'rganish tizimidan kutilgan chiqish turi.
Asosiy toifalar orasida biz quyidagilarni topamiz:
La tasniflash: kirishlar ikki yoki undan ortiq sinflarga bo'lingan va o'quv tizimi kirish uchun mavjud bo'lganlar orasida bitta yoki bir nechta sinflarni ajratishga qodir modelni yaratishi kerak.Ushbu turdagi vazifalar odatda nazorat qilinadigan o'quv metodlaridan foydalangan holda hal qilinadi.
Tasnifga bir yoki bir nechta teglarning tarkibidagi ob'ektlar yoki predmetlar asosida rasmga tayinlashni tasniflashning misoli;
La regressiya: kontseptual ravishda tasnifga o'xshash bo'lib, natijada uzluksiz va diskret bo'lmagan maydon mavjud.Odatda bu nazorat ostida o'qitish bilan boshqariladi.
Rejressiyaning misoli bu sahna chuqurligini uning rang tasviri ko'rinishida tasvirlashidir.
Aslida, ko'rib chiqilayotgan mahsulotning maydoni deyarli cheksizdir va ma'lum bir aniq imkoniyatlar to'plami bilan cheklanmaydi;
Il Kümeleme: u qayerda ma'lumotlar to'plami guruhlarga bo'linadi, ammo ular tasnifdan farqli o'laroq, priori noma'lum.Ushbu toifadagi muammolarning mohiyati odatda ularni nazorat qilinmaydigan o'quv vazifalariga majbur qiladi.
Oddiy chiziqli regressiya modeli
Chiziqli regressiya amhaqiqiy qiymatlarni aniqlash uchun foydalaniladigan keng tarqalgan model, masalan
uylarning narxi,
qo'ng'iroqlar soni,
jami savdo boshiga,
va doimiy o'zgaruvchilar mezoniga mos keladi:
kvadrat metr,
joriy hisob qaydnomasiga obuna bo'lish,
shaxsni tarbiyalash
Chiziqli regressiyada mustaqil o'zgaruvchilar va bog'liq bo'lgan o'zgaruvchilar o'rtasidagi munosabatlar odatda ikkita o'zgaruvchilar o'rtasidagi munosabatni bildiradigan chiziq orqali amalga oshiriladi.
Mos keladigan chiziq regressiya chizig'i deb nomlanadi va Y = a * X + b tipidagi chiziqli tenglama bilan ifodalanadi.
Formul ikki yoki undan ko'p xarakteristikalarni bir-biri bilan bog'lash uchun interpolating ma'lumotlarga asoslanadi. Algoritmga kirish xarakteristikasini berganingizda, regress boshqa xarakteristikani qaytaradi.
Ko'p chiziqli regressiya modeli
Agar bir nechta mustaqil o'zgaruvchiga ega bo'lsak, unda quyidagicha modelni olsak, ko'p chiziqli regressiya haqida gaplashamiz:
y=b0 + b1x1 + b2x2 +… + Bnxn
y - qiymatlarga javob, ya'ni u model tomonidan taxmin qilingan natijani anglatadi;
b0 kesishish, bu x ning y bo'lgan qiymatii ularning barchasi 0 ga teng;
birinchi belgi b1 x koeffitsienti1;
yana bir xususiyat bn x koeffitsientin;
x1,x2,…, Xn modelning mustaqil o'zgaruvchilari.
Asosan tenglama doimiy bog'liq o'zgaruvchi (y) va ikki yoki undan ko'p mustaqil o'zgaruvchilar (x1, x2, x3 ...) o'rtasidagi munosabatni tushuntiradi.
Masalan, dvigatelning kuchi, tsilindrlarning soni va yoqilg'i sarfini hisobga olgan holda, biz avtomobilning CO2 emissiyasini (bog'liq bo'lgan o'zgaruvchan y) hisoblashni istasak. Ushbu oxirgi omillar x1, x2 va x3 mustaqil o'zgaruvchilar. Konstantalar bi haqiqiy sonlardir va modelning taxmin qilingan regressiya koeffitsientlari deb nomlanadi Y - doimiy bog'liq o'zgaruvchi, ya'ni b0, b1 x1, b2 x2 va boshqalar yig'indisi. y haqiqiy son bo'ladi.
Ko'p regressiya tahlili mustaqil o'zgaruvchilarning bog'liq bo'lgan o'zgaruvchiga ta'sirini aniqlash uchun ishlatiladigan usul.
Mustaqil o'zgaruvchilar o'zgarishi bilan bog'liq o'zgaruvchining qanday o'zgarishini tushunish, haqiqiy vaziyatdagi o'zgarishlarning ta'sirini yoki ta'sirini taxmin qilishimizga imkon beradi.
Bir nechta chiziqli regressiyadan foydalanib, qon bosimi qanday o'zgarishini tushunish mumkin, chunki tana massasi indeksining o'zgarishi, yoshi, jinsi va boshqalar kabi omillarni hisobga olgan holda sodir bo'lishi mumkin.
Bir nechta regressiya bilan biz neft yoki oltinning kelajakdagi tendentsiyasi kabi narxlarning tendentsiyalari bo'yicha taxminlarni olishimiz mumkin.
Va nihoyat, ko'p sonli chiziqli regressiya mashinalarni o'rganish va sun'iy intellekt sohalarida ko'proq qiziqish uyg'otmoqda, chunki bu tahlil qilinadigan ko'plab yozuvlar mavjud bo'lsa ham, bajariladigan o'quv modellarini olishga imkon beradi.
Logistik regressiya modeli
Logistik regressiya - bu bir yoki bir nechta tushuntiruvchi o'zgaruvchilar yordamida binomli natijani modellashtirishga qaratilgan statistik vositadir.
Odatda ikkilik muammolar uchun ishlatiladi, bu erda faqat ikkita sinf mavjud, masalan: Ha yoki Yo'q, 0 yoki 1, erkak yoki ayol va hokazo ...
Shu tarzda ma'lumotlarni tavsiflash va ikkilik bog'liq o'zgaruvchini va bir yoki bir nechta nominal yoki tartibli mustaqil o'zgaruvchilar o'rtasidagi munosabatni tushuntirish mumkin.
Natija, ehtimollikni hisoblab, so'ngra ehtimollik qiymatiga eng yaqin sinfni (ijobiy yoki salbiy) aniqlaydigan logistika funktsiyasi yordamida aniqlanadi.
Biz logistik regressiyani oilani tasniflash usuli sifatida ko'rib chiqishimiz mumkin boshqariladigan o'quv algoritmlari.
Statistik usullardan foydalangan holda, logistik regressiya, natijada berilgan qiymatning berilgan sinfga tegishli bo'lishi ehtimolini aks ettiruvchi natijani yaratishga imkon beradi.
Binomial logistik regressiya muammolarida chiqish bitta sinfga tegishli bo'lishi ehtimoli P, boshqa sinf 1-P ga tegishli (bu erda P 0 va 1 orasidagi raqam, chunki u ehtimollikni ifodalaydi).
Binomial logistik regressiya biz taxmin qilmoqchi bo'lgan o'zgaruvchi barcha holatlarda yaxshi ishlaydi, ya'ni u faqat ikkita qiymatni qabul qilishi mumkin: musbat sinfni bildiruvchi 1 qiymati yoki salbiy sinfni bildiruvchi 0 qiymati.
Logistik regress bilan echilishi mumkin bo'lgan muammolarga misollar:
elektron pochta spam yoki emas;
onlayn xarid soxta yoki yo'q, sotib olish shartlarini baholaydi;
bemorda uning radiusi baholanadigan sinish mavjud.
Logistik regressiya yordamida biz bashorat qilishni xohlaymiz (bog'liq o'zgaruvchi) va bir yoki bir nechta mustaqil o'zgaruvchilar, ya'ni xususiyatlar o'rtasidagi bog'liqlikni o'lchab. Ehtimolni baholash logistika funktsiyasi orqali amalga oshiriladi.
Keyinchalik ehtimolliklar ikkilik qiymatlarga aylantiriladi va prognozni haqiqiy qilish uchun ushbu natija sinfga yaqin yoki yo'qligiga qarab u tegishli bo'lgan sinfga beriladi.
Masalan, agar logistika funktsiyasini qo'llash 0,85 ga teng bo'lsa, demak, bu kirish 1-sinfga berish orqali ijobiy sinf hosil qilgan degan ma'noni anglatadi, aksincha, agar u 0,4 va undan yuqori qiymatga ega bo'lsa, odatda <0,5 ..
Logistik regressiya kirish qiymatlarining tasnifini baholash uchun logistika funktsiyasidan foydalanadi.
Sistemoid deb ataladigan logistika funktsiyasi har qanday haqiqiy qiymatni olish va 0 dan 1 gacha bo'lgan qiymatni xaritaga tushirishga qodir, bu haddan tashqari holatlar bundan mustasno. Vazifasi:
u qayerda:
e: tabiiy logarifmlar bazasi (Eyler soni yoki excel funktsiyasi exp ())
b0 + b1 * x: bu siz o'zgartirmoqchi bo'lgan haqiqiy raqamli qiymatdir.
Logistik regressiya uchun ishlatiladigan vakillik
Logistik regressiya tenglamani chiziqli regressiya kabi vakillik sifatida ishlatadi
Chiqish qiymatini (y) bashorat qilish uchun kirish qiymatlari (x) og'irliklar yoki koeffitsient qiymatlari yordamida chiziqli ravishda birlashtiriladi. Chiziqli regressiyadan asosiy farq shundaki, modellashtirilgan chiqish qiymati raqamli qiymat emas, balki ikkilik qiymatdir (0 yoki 1).
Mana logistik regressiya tenglamasiga misol:
y = e ^ (b0 + b1 * x) / (1 + e ^ (b0 + b1 * x))
Qayerdan:
y - bog'liq bo'lgan o'zgaruvchi, ya'ni taxmin qilingan qiymat;
b0 - qutblanish yoki kesishish davri;
b1 - bitta kirish qiymati (x) uchun koeffitsient.
Kirish ma'lumotlarining har bir ustunida b ma'lumotlar koeffitsienti (doimiy real qiymat) mavjud bo'lib, u mashg'ulot ma'lumotlaridan o'rganilishi kerak.
Xotirada yoki faylda saqlaydigan modelning haqiqiy vakili bu tenglamadagi koeffitsientlar (beta yoki b qiymati).
Logistik regressiya ehtimolliklarni bashorat qiladi (texnik oraliq)
Logistik regressiya odatiy sinf ehtimolini yaratadi.
Misol tariqasida, biz odamlarning jinsini ularning balandligidan erkak yoki ayol sifatida modellashtirayapmiz, birinchi sinf erkak bo'lishi mumkin, logistik regressiya modelini esa erkak bo'lish ehtimoli sifatida yozilishi mumkin, deylik. rasmiy ravishda:
P (jinsi = erkak | bo'yi)
Boshqa usulda, biz (X) standart sinfga (Y = 1) tegishli bo'lishi ehtimolini modellashtiramiz, uni quyidagicha yozishimiz mumkin.
P (X) = P (Y = 1 | X)
Ehtimollik taxminini amalda bashorat qilish uchun (0 yoki 1) ikkilik qiymatiga aylantirish kerak.
Logistik regressiya - chiziqli usul, ammo bashoratlar logistik funktsiyadan foydalanib o'zgartiriladi. Buning ta'siri shundan iboratki, biz bashoratlarni chiziqli birikmalar sifatida tushuna olmaymiz, chunki biz chiziqli regressiya bilan, masalan, yuqoridan davom etganda, model quyidagicha ifodalanishi mumkin:
p (X) = e ^ (b0 + b1 * X) / (1 + e ^ (b0 + b1 * X))
Endi tenglamani quyidagicha qaytarishimiz mumkin. Buni orqaga qaytarish uchun e-ni bir tomonga olib tashlash kerak, boshqa tomonga tabiiy logarifm qo'shilishi mumkin.
ln (p (X) / 1 - p (X)) = b0 + b1 * X
Shunday qilib, biz o'ngdagi chiqishni hisoblash yana chiziqli (xuddi chiziqli regressiya singari) ekanligi va chap tomonda kirish standart sinf ehtimoli logarifmi ekanligiga dalolat qilamiz.
Ehtimollar voqea ehtimolining hech qanday voqea sodir bo'lmaslik ehtimoliga bo'lingan nisbati sifatida hisoblanadi, masalan. 0,8 / (1-0,8) natijasi 4. Shunday qilib biz quyidagini yozishimiz mumkin:
ln (ehtimollik) = b0 + b1 * X
Ehtimollar log-ga o'zgartirilganligi sababli, biz uni chap tomonli log-odatlar yoki probit deb ataymiz.
Biz eksponentni o'ng tomonga qaytarib, uni quyidagicha yozishimiz mumkin.
ehtimollik = e ^ (b0 + b1 * X)
Bularning barchasi aslida model hali ham kirishlarning chiziqli kombinatsiyasi ekanligini tushunishga yordam beradi, ammo bu chiziqli kombinatsiya oldindan belgilangan sinfning logaritmik ehtimolligini anglatadi.
Logistik regressiya modelini o'rganish
Logistik regressiya algoritmining koeffitsientlari (beta yoki b qiymatlari) o'rganish bosqichida baholanadi. Buning uchun biz maksimal ehtimollik bahosidan foydalanamiz.
Maksimal ehtimollikni baholash - bu bir nechta mashina o'rganish algoritmlari tomonidan ishlatiladigan o'rganish algoritmi. Modeldan kelib chiqadigan koeffitsientlar odatiy sinf uchun 1 ga (masalan, Erkakka) va boshqa sinf uchun 0 ga yaqin (masalan, Ayol) qiymatni taxmin qilmoqdalar. Mantiqiy regressiyaning maksimal ehtimoli - bu ma'lumotlar bilan taqqoslangan model tomonidan taxmin qilingan ehtimollik xatolarini minimallashtiruvchi koeffitsientlar (Beta yoki b qiymatlari) uchun protseduralar (masalan, agar ma'lumotlar boshlang'ich sinf bo'lsa, ehtimollik 1).
Ta'lim ma'lumotlari uchun eng yaxshi koeffitsient qiymatlarini optimallashtirish uchun minimallashtirish algoritmidan foydalanamiz. Bu ko'pincha samarali optimallashtirishning samarali algoritmidan foydalangan holda amalda qo'llaniladi.
Misol: Chiziqli regressiya (Uy narxi)
Do'stlaringiz bilan baham: |