Ortiqcha mashg'ulot va ortiqcha tayyorgarlikni yo'q qilish
Agar model yangi ma'lumotlar uchun to'g'ri bashoratlarni ishlab chiqarishga qodir bo'lsa, unda u natijani test to'plamiga umumlashtirish qobiliyatiga ega deb hisoblash mumkin. Shuning uchun modelni maksimal o'rganish qobiliyatiga ega bo'ladigan tarzda qurish kerak edi. Odatda, tasniflash modeli shunday tuzilganki, u o'quv majmuasi bo'yicha aniq bashoratlarni beradi. Agar o'quv va test majmualari ko'p sonli umumiy xususiyatlarga ega bo'lsa, unda model test ma'lumotlari to'plamida ham aniq bo'ladi deb taxmin qilish mumkin, lekin bu har doim ham shunday emas. Murakkab modellarni yaratganimizda, biz o'quv majmuasida o'zboshimchalik bilan aniqlikni olishimiz mumkin. Yangi ma'lumotlar namunasi bo'yicha tasniflash algoritmi sifatining yagona ko'rsatkichi test to'plamidan foydalanish hisoblanadi. hodisa, unda yaratilgan model mavjud ma'lumotlar miqdori uchun juda murakkab bo'lib chiqadi, ortiqcha moslama deb ataladi va algoritm o'quv to'plamining xususiyatlariga juda yaqin moslashtirilganda, unda yaxshi ishlaganda, lekin natijani umumlashtira olmasa sodir bo'ladi. yangi ma'lumotlarga erishildi. Boshqa tomondan, agar model juda oddiy bo'lsa, u yaxshi ishlamaydi.
hatto o'quv majmuasida ham. Juda oddiy bo'lgan model tanlangan vaziyat kam moslama deb ataladi. Tasniflash modeli qanchalik murakkab bo'lsa, u o'quv ma'lumotlari bilan qanchalik samarali ishlaydi. Ammo agar model juda murakkab bo'lib qolsa, biz o'quv namunasi ma'lumotlarining har bir misoliga juda ko'p e'tibor berishni boshlaymiz va bunday model yangi ma'lumotlarga yaxshi umumlasha olmaydi. Shunday qilib, to'liq moslama va ortiqcha moslama o'rtasidagi o'zaro kelishuvni tavsiflovchi nuqtani topish kerak (3.2-rasm).
3.2-rasm. Noto'g'ri va ortiqcha moslama o'rtasidagi kelishuvni tavsiflovchi nuqta
Optimal parametr qiymatlarini izlash va modelni baholash, ma'lumotlar bir necha marta bo'lingan va mos keladigan modellar yaratilgan birlashtirilgan tekshirish va 5-bo'limli o'zaro tekshirish bilan grid qidiruvi kombinatsiyasi yordamida amalga oshirildi (3.3-rasm). ) [178].
3.3-rasm. 5 qutili oʻzaro tekshirish jarayoni [156]
5 blokli o'zaro tekshirish jarayoni quyidagicha: birinchidan, ma'lumotlar bloklar deb ataladigan bir xil o'lchamdagi 5 qismga bo'linadi. Keyinchalik, modellar ketma-ketligi quriladi, bu erda birinchi model sinov namunasi sifatida birinchi blokdan foydalangan holda o'qitiladi va qolgan bloklar (2-5) o'quv namunasi sifatida ishlaydi.
Modellarni qurishning shunga o'xshash jarayonlari boshqa barcha bloklar uchun takrorlanadi. Beshta maʼlumotlardan birinchisi birinchi blokni, beshta maʼlumotlardan ikkinchisi ikkinchi blokni tashkil qiladi va hokazo. Shunday qilib, test kichik namunalaridagi barcha bo'limlar uchun xatoning o'rtacha qiymati hisoblanadi [179, 180].
Tarmoq paketlarini tasniflash uchun o'zgaruvchan parametrlar sifatida 3.4-jadvalda keltirilgan parametrlar tanlangan.
3.4-jadval. Gradientni kuchaytirishga asoslangan klassifikatorni tayyorlash parametrlari
Optimallashtirish imkoniyatlari
|
Optimal diapazon
parametrlari
|
Optimal
parametrlari
|
Takrorlashlar soni n_estimators
|
[10, 150]
|
50
|
o'rganish_stavkasi
|
[0.005, 1]
|
0.2
|
Daraxt balandligini o'rganish
maksimal_chuqurlik
|
[1, 10]
|
7
|
barglar soni
min_child_namunalar
|
[5.50]
|
o'ttiz
|
Do'stlaringiz bilan baham: |