3-rasm. LASSO va ridge regressiyada regularizatsiya (chapda LASSO, o`ngda ridge
regressiya)
197
LASSO va ridge regressiya o`rtasidagi asosiy farq sifatida tenglama parametrlariga
“jarima solish” imkoniyati har xil ekanligi bilan asoslanadi. 3-rasmda ko`rsatilganidek,
LASSO regressiyada statistik ahamiyati darajasi past bo`lgan ko`rsatkichlar modeldan
to`liq chiqarib tashlanishi mumkin, ridgda esa, ularning parametrlari kichraygan taqdirda
ham hech qachon nolga teng bo`lmaydi.
Sof ML metodlaridan biri hisoblangan
decision tree (“qarorlar daraxti”)
198
metodi –
asosan, klassifikatsiya masalalari (ya’ni, turli ko`rsatkichlarni ularning belgisiga ko`ra
guruhlash) da ishlatilsa-da, metoddan regressiya uchun ham ishlatiladi. Decision tree
graflar nazariyasi elementlariga asoslanib, tanlanmani har bir bosqichda ikki va undan ortiq
qismlarga ma’lum kriteriyalar asosida ajratadi. Ya’ni, har bir kriteriya grafning uchi bo`lib,
ular qirralar asosida o`zaro bog`lanadi.
Sodda ko`rinishdagi qarorlar daraxti quyidagicha ko`rinishga ega:
197
https://medium.com/@alexfharlan/ridge-vs-lasso-regression-how-to-keep-them-straight-5ee4a2d7f606
(02/02/2020)
198
Izoh: ayrim manbalarda “yechimlar daraxti” shaklida ham tarjima qilinadi
795
4-rasm. Oddiy ko`rinishdagi qarorlar daraxti
199
Qarorlar daraxtining eng yuqori uchi uning “ildizi”, keyingi qismlari “shoxlari” va eng
so`nggi uchlari “barglari” deb ataladi.
Qarorlar daraxti bir qancha jiddiy kamchiliklarga ega bo`lib, ular orasida modelning
yuqorida aytilgan “ortiqcha o`rganish” (overfitting) muammosi mavjud. Nazariy jihatdan,
qarorlar daraxtini tanlanmadagi ma’lumotlarda umuman xato qilmaydigan darajada tuzish
mumkin. Bu muammoning oldini olish uchun daraxtning chuqurligi, ya’ni uning “shoxlari”
sonining maksimal darajasini belgilab olinadi. Overfitting bilan kurashishning ikkinchi
usuli esa bir qancha qarorlar daraxtlaridan “ansambl” tuzish.
Ansaml metodlar ham ML ning eng muhim bo`g`inlaridan hisoblanadi. Odatda, ansambl
metodlari boshqa metodlarning aniqligiga qarab ularga vazn beriliadi ularning o`rtachasini
aniqlaydi. Bu overfitting muammosini bartaraf etib, modelning aniqlik darajasini oshirishga
imkon beradi.
Random Forest (RF, “tasodifiy o`rmon”)
200
– turli qarorlar daraxtlaridan ansambl tuzish
imkonini beradi. RF modeli tanlanmadan tasodifiy ravishda tanlangan ma’lumotlarga
asoslanib qarorlar daraxtlarini tuzadi. RFda qarorlar daraxtining soni cheklanmagan
bo`lishi mumkin. Ularning soni ko`payishi modelning aniqligini oshirsa-da, bu hisob-kitob
uchun vaqtning ham oshishiga olib keladi. Har bir qarorlar daraxti tasodifiy tanlanmadan
tashqaridagi ma’lumotlarda aniqlik tekshiriladi. Aniqroq daraxtlar kattaroq vazn oladi
hamda ularning hammasidan o`rtacha qiymatlar to`g`ri deb qabul qilinadi.
199
Quinlan, J. R., (1986). Induction of Decision Trees. Machine Learning 1: 81-106, Kluwer Academic Publishers
200
Breiman, L. (2001). Random Forests. Machine Learning, 45(1), pp. 5–32.
796
Do'stlaringiz bilan baham: |