Tasodifiy o'rmonning muhim xususiyatlari
1. Xilma-xillik - individual daraxt yaratishda barcha atributlar/o'zgaruvchilar/xususiyatlar hisobga olinmaydi, har bir daraxt har xil.
2. O'lchovlilik la'natiga qarshi immunitet- Har bir daraxt barcha xususiyatlarni hisobga olmaganligi sababli, xususiyat maydoni kamayadi.
3. Parallelizatsiya-har bir daraxt turli ma'lumotlar va atributlardan mustaqil ravishda yaratiladi. Bu tasodifiy o'rmonlarni qurish uchun CPUdan to'liq foydalanishimiz mumkinligini anglatadi.
4. Poezd-Test bo'linishi - Tasodifiy o'rmonda biz poezd va test uchun ma'lumotlarni ajratishimiz shart emas, chunki har doim qaror daraxtida ko'rinmaydigan ma'lumotlarning 30% bo'ladi.
5. Barqarorlik- Barqarorlik natija ko'pchilik ovoz berish/o'rtachaga asoslanganligi sababli yuzaga keladi.
Qaror daraxti va tasodifiy o'rmon o'rtasidagi farq.
Tasodifiy o'rmon - qaror daraxtlari to'plami; hali, ularning xatti-harakatlarida juda ko'p farqlar mavjud.
Qaror daraxtlari
1. Qaror daraxtlari, odatda, hech qanday nazoratsiz o'sishiga ruxsat berilsa, haddan tashqari moslashish muammosidan aziyat chekadi.
2. Yagona qarorlar daraxti hisoblashda tezroq.
3. Xususiyatlari bo'lgan ma'lumotlar to'plami qarorlar daraxti tomonidan kiritilganda, bashorat qilish uchun ba'zi qoidalar to'plamini shakllantiradi.
Tasodifiy o'rmon
1. Tasodifiy o'rmonlar ma'lumotlarning kichik to'plamidan yaratiladi va yakuniy natija o'rtacha yoki ko'pchilik reytingiga asoslanadi va shuning uchun ortiqcha moslama muammosi hal qilinadi.
2. Bu nisbatan sekinroq.
3. Tasodifiy o'rmon kuzatuvlarni tasodifiy tanlaydi, qarorlar daraxtini yaratadi va o'rtacha natija olinadi. U hech qanday formuladan foydalanmaydi.
Shunday qilib, tasodifiy o'rmonlar, agar daraxtlar xilma-xil va maqbul bo'lsa, qaror daraxtlariga qaraganda ancha muvaffaqiyatli bo'ladi.
Muhim giperparametrlar
Giperparametrlar tasodifiy o'rmonlarda modellarning ishlashi va bashorat qilish kuchini oshirish yoki modelni tezroq qilish uchun ishlatiladi.
Quyidagi giperparametrlar bashorat qilish kuchini oshiradi:
1. n_estimators – bashoratlarni o'rtacha hisoblashdan oldin algoritm quradigan daraxtlar soni.
2. max_features – tasodifiy o'rmon tugunni bo'linishni ko'rib chiqadigan xususiyatlarning maksimal soni.
3. mini_sample_leaf– ichki tugunni ajratish uchun zarur bo'lgan minimal barg sonini aniqlaydi.
Quyidagi giperparametrlar tezlikni oshiradi:
1. n_jobs – bu dvigatelga qancha protsessordan foydalanishga ruxsat berilganligini bildiradi. Agar qiymat 1 bo'lsa, u faqat bitta protsessordan foydalanishi mumkin, lekin qiymat -1 bo'lsa, hech qanday cheklov yo'q.
2. random_state – namunaning tasodifiyligini nazorat qiladi. Model, agar u tasodifiy holatning aniq qiymatiga ega bo'lsa va unga bir xil giperparametrlar va bir xil o'quv ma'lumotlari berilgan bo'lsa, har doim bir xil natijalarni beradi.
3. oob_score - OOB sumkadan tashqarida degan ma'noni anglatadi. Bu tasodifiy o'rmonlarni o'zaro tekshirish usuli. Ushbu namunaning uchdan bir qismi ma'lumotlarni o'rgatish uchun ishlatilmaydi, balki uning ishlashini baholash uchun ishlatiladi. Ushbu namunalar sumka namunalaridan tashqari deb ataladi.
Do'stlaringiz bilan baham: |