Tasodifiy o'rmon algoritmi
Yuqorida aytib o'tilganidek, qaror daraxtlari algoritmining asosiy kamchiliklari - bu haddan tashqari moslashish tendentsiyasi. Shu bilan birga, tasodifiy o'rmon algoritmini qo'llash, boshqariladigan mashinali o’qitish algoritmi bu muammoni hal qiladi.
Tasodifiy o'rmon - bu har bir daraxt boshqasidan parametrlari bo'yicha bir oz farq qiladigan qaror daraxtlari to'plami. Ushbu algoritmning mohiyati shundaki, har bir daraxt yaxshi o'rganadi, lekin, ehtimol, ma'lumotlarning bir qismiga to'g'ri keladi. Agar siz yaxshi ishlaydigan va har xil darajada haddan tashqari mos keladigan ko'p sonli qaror daraxtlarini qursangiz, ularning natijalarini o'rtacha hisoblab, ortiqcha moslamalarni kamaytirish imkoniyati mavjud. Ushbu qarorni tavsiflash uchun maqsadli o'zgaruvchini kerakli darajada bashorat qiladigan va bir-biridan farq qiluvchi qarorlar daraxtlari to'plami quriladi [156]. Tasodifiy o'rmonni qurish algoritmi quyidagicha [128]:
har bir n=1, … , N uchun 𝑋 namuna hosil qilinadi𝑛, qaror daraxti qurilgan:
berilgan me’zonga ko'ra, eng yaxshi atribut tanlanadi, unga ko'ra daraxt bo'linadi (tanlov tugaguniga qadar);
daraxt barglarning har birida ko'pi bilan 𝑛 bo'lguncha quriladi𝑚𝑖𝑛obyektlar yoki ma'lum bir daraxt chuqurligiga erishilgunga qadar;
har bir bo'limda n ta boshlang'ichdan birinchi navbatda m tasodifiy xususiyat tanlanadi;
namunaning optimal bo'linishini izlash faqat ular orasida amalga oshiriladi. Yakuniy tasniflagich quyidagicha ko'rinadi:
𝑎(𝑥) = 1 ∑𝑁 𝑏 (𝑥),(2.9)
𝑁 𝑖=1 𝑖
boshqacha aytganda, tasniflash muammosi uchun yechim koʻpchilik ovoz berish yoʻli bilan tanlanadi [156].
Tanlangan funksiyalar soni max_features parametri yordamida aniqlanadi. Xususiyatlarning kichik to'plamini tanlash jarayoni tugunlarning har biri uchun alohida takrorlanadi, bu bilan bog'liq holda "o'z" kichik xususiyatlar to'plamidan foydalangan holda tugunda qaror qabul qilinishi mumkin. Max_features = n_features sharti ma'lumotlar namunasining barcha xususiyatlari har bir bo'linishda ishtirok etishi mumkinligini anglatadi va xususiyatni tanlash jarayonida tasodifiylik kiritilmaydi. Agar siz max_features = 1 ni o'rnatsangiz, bo'linish sinov uchun hech qanday tanlovni amalga oshirmaydi, buning o'rniga tasodifiy tanlangan xususiyatni turli chegaralar yordamida qidiradi. Ushbu parametrning yuqori qiymati tasodifiy o'rmondagi daraxtlarning juda o'xshash bo'lishiga olib keladi va eng kamsituvchi xususiyatlardan foydalangan holda ma'lumotlarni osongina taxmin qilish imkoniyatiga ega bo'ladi.
Tasodifiy o'rmon uchun bashorat olishda, algoritm birinchi navbatda o'rmondagi har bir daraxt uchun bashoratni hisoblab chiqadi. Tasniflash uchun har bir sinf uchun ehtimollikni hisoblash va "yumshoq" bashorat berish orqali "yumshoq ovoz berish" strategiyasi qo'llaniladi. Ushbu ehtimolliklar barcha daraxtlar bo'yicha o'rtacha hisoblanadi, shundan so'ng eng yuqori ehtimollik sinfi bashorat qilinadi.
Qarorlar daraxti algoritmiga nisbatan tasodifiy o'rmon algoritmidan foydalanishning asosiy afzalliklari shundaki, ma'lumotlarni masshtablashning hojati yo'q, shuningdek, algoritmning yuqori samaradorligi. Biroq, muhim kamchilik - bu siyrak va yuqori o'lchamli ma'lumotlar bilan samarali ishlashning mumkin emasligi. [129, 156].
Do'stlaringiz bilan baham: |