Kattalashtirish: ta'lim misollarini ishlatib, noto'g'ri ma'lumotlarni qo'shing va tasvirni tanib olishda o'lchovni o'zgartirish va tasvirni aylantirish kabi buzilishlarni qo'shing. Fikr, yaxshi ishlashga erishish uchun modelni ko'proq ma'lumotlarga o'rgatish har doim ham yaxshi. Shuni esda tutingki, ilg'or misollar modelga mustaqil misollar sifatida juda ko'p ma'lumot qo'shmaydi, ammo bu ko'proq ma'lumotni yig'ish mumkin bo'lmaganda hali ham to'g'ri alternativ.
Erta to'xtash: bu usul xarajat funkciyasini optimallashtirishga va uni tartibga solishga harakat qiladi, shuning uchun u kamroq umumlashma xatosiga ega. Bu har bir iteraciya bo'yicha tasdiqlash xatosini yozib olish uchun ishlaydi. Tekshirish xatosi yaxshilansa, biz parametrlarning nusxasini saqlaymiz va optimallashtirish algoritmi tugamaguncha davom etamiz. Hisoblash vaqti va resurslari biz uchun muammo bo'lsa, bu yaxshi usul.
Biz L2 parametrlarini tartibga solishni ko'rib chiqamiz.
L2 parametrini regulyarizatsiyalash.
Odatda biz ofsetlarni tartibga solmaymiz va faqat og'irliklarni tuzatmaymiz. Hessen matritsasidan va o'z qadriyatlaridan va o'z vektorlaridan vazn yo'qotishining sezuvchanligini ko'rish uchun foydalanishimiz mumkin. Wi ning og'irligi (λi / λi + α) bilan o'zgartiriladi, bu erda λi (o'z qiymati) bu yo'nalishda Gessian matritsasining sezuvchanligini (o'z vektori) va a tartibga soluvchi giperparametrni o'lchaydi. Shuning uchun,
Agar λi ≫ α a qiymati funktsiyasi bu yo'nalishda juda sezgir bo'lsa va tegishli og'irlik xarajatlarni sezilarli darajada kamaytirsa - juda kam (qisqaradi).
Agar λi≪ α a qiymati funktsiyasi bu yo'nalishda sezgir bo'lmasa va tegishli og'irlik qiymatning sezilarli pasayishiga olib kelmasa, u nolga kamayadi (kamayadi).
Keyin maqsadli funktsiya (ikkilik o'zaro faoliyat entropiya) o'zgaradi:
Uchun:
Bundan tashqari, yangi gradyanlar va yangilanish tengligi bo'ladi:
Shuni esda tutingki, bu erda a-o'rganish tezligi va λ -tartibga soluvchi giperparametr. λ oshgani sayin, quyidagi ekstremal holatlar bilan ofset kuchayadi (va model kamroq moslashuvchan bo'ladi) (qarang: shakl 2):
λ = 0, tartibga solinmagan holda.
λ → ∞, model juda oddiy bo'lib, barcha og'irliklar aslida nolga teng. Regressiya holatida biz faqat maqsadli o'zgaruvchining o'rtacha qiymatiga teng bo'lgan ushlashni olamiz.
Ba'zan L2 parametrining regulyatsiyasi normal tenglama yordamida qanday ishlashini ko'rish foydali bo'ladi. Oddiy talab:
Bu degani:
Dispersiyaga λ qo'shilishi vazni kamaytiradi
X ^ TX qayta tiklanmasa ham, har bir funktsiyaga λ qo'shilishi uni to'liq darajadagi matritsaga aylantiradi.
Regulyarizatsiyabizni umumlashma xatosini kamaytirishga qanday yordam berishini ko'rsatish uchun cats_vs_dogs ma'lumotlar to'plamidan foydalanamiz. Ma'lumotlar to'plamida mushuk va itlar uchun tasvirlar mavjud. Rasmda mushuk yoki it borligini sinflash uchun neyron tarmoqni yaratishga harakat qilamiz. Har bir tasvir RGB o'lchamida 64 x 64 pikselga ega.
Biz yozgan xususiyatlardan foydalanamiz "neyron kodlash tarmog'i - to'g'ridan- to'g'ri tarqatish va teskari tarqatish" parametrlarni ishga tushirish, to'g'ridan-to'g'ri tarqatishni hisoblash, o'zaro faoliyat entropiya, gradyanlar va boshqalar.
Keling, ma'lumotlarni import qilaylik va shaklni, shuningdek, o'quv to'plamidan mushukning namunasini ko'rib chiqaylik.
O‘qitish ma’lumotlar o‘lchamlari:
O‘lcham X: (12288, 209), o‘lcham Y: (1, 209)
Test ma’lumotlar o‘lchamlari:
Hajmi X: (12288, 50), hajmi Y: (1, 50)
O'quv to'plamida 209 ta misol va test to'plamida 50 ta misol mavjud. Keling, ko'p qatlamli neyron tarmoqni yozishga yordam beradigan barcha yordamchi funktsiyalarni yozamiz.
L2 va L1 parametrlarini regulyarizatsiya kabi regulyarizatsiya usullarining bevosita taxminlaridan biri parametrlarning qiymati nolga teng bo'lishi va barcha parametrlarni nolga kamaytirishga harakat qilishdir. Bu shuni anglatadiki, ta'lim ma'lumotlariga juda yaxshi amal qilishdan qochish kerak, bu esa o'quv algoritmini ko'rinmas ma'lumotlarga nisbatan foydasiz bo'lgan ba'zi shovqinlarni ta'kidlashga olib keladi.
Do'stlaringiz bilan baham: |