4. Ta'lim
Tarmog'imizni o'qitishni boshlash uchun, tanib olish sifatini qanday o'lchashni hal qilishingiz kerak. Bizning holda, buning uchun biz neyron tarmoqlari nazariyasida eng keng tarqalgan o'rtacha kvadratik xato (MSE, MSE) funktsiyasidan foydalanamiz:
Ushbu formulada Ep p-chi mashg'ulot juftligini aniqlashda xato, Dp - tarmoqning istalgan chiqishi, O (Ip, V) - tarmoqning chiqishi, p-chi kirish va W og'irlik koeffitsientlariga bog'liq bo'lib, unda kondansatkich yadrolari, xayolparastlar, og'irliklar mavjud. S va F qatlamlarining koeffitsientlari. Treningning vazifasi har qanday mashg'ulot juftligi (Ip, Dp) uchun minimal xato epini berish uchun Vt og'irliklarini moslashtirishdir. Barcha mashqlar to'plamidagi xatoni hisoblash uchun barcha o'quv juftliklari uchun xatolarning arifmetik o'rtacha qiymati olinadi. Biz ushbu o'rtacha xatoni E deb belgilaymiz.
Ep xato funktsiyasini minimallashtirish uchun gradient usullari eng samarali hisoblanadi. Keling, gradient usullarining mohiyatini oddiy bitta o'lchovli vaziyat misolidan foydalanib ko'rib chiqaylik (ya'ni, bizda bitta vazn bo'lsa). Agar biz xato funktsiyasini Teylor seriyasida kengaytirsak, quyidagi ifodani olamiz:
Bu erda E xato funktsiyasi bir xil, Wc ba'zi bir og'irlik boshlang'ich qiymati. Maktab matematikasidan funktsiyaning ekstremalini topish uchun uning hosilasini olish va nolga tenglashtirish kerakligini eslaymiz. Shunday qilaylik, og'irliklar bo'yicha xato funktsiyasining hosilasini olamiz, 2-darajadan yuqori bo'lgan atamalarni olib tashlaymiz:
ushbu iboradan kelib chiqadiki, xato funktsiyasining qiymati minimal bo'lishi kerak bo'lgan og'irlikni quyidagi ifodadan hisoblash mumkin:
Bular maqbul og'irlik xato funktsiyasining ikkinchi hosilasiga bo'lingan og'irlik bo'yicha xato funktsiyasining joriy hosilasini minus sifatida hisoblanadi. Ko'p o'lchovli holat uchun (ya'ni og'irlik matritsasi uchun) hamma narsa bir xil, faqat birinchi lotin gradientga (qisman lotin vektoriga) aylanadi va ikkinchi lotin Hessianga (ikkinchi qismli lotin matritsasi) aylanadi. Va bu erda ikkita variant mavjud. Agar ikkinchi lotin yozuvini tashlab qo'ysak, eng keskin gradient tushirish algoritmini olamiz. Agar, shunga qaramay, biz ikkinchi lotinni hisobga olishni istasak, unda biz to'liq Gessianni hisoblash uchun qancha hisoblash manbalaridan hayratda qolamiz va keyin uni bekor qilamiz. Shuning uchun, odatda Hessianni oddiyroq narsa bilan almashtirishadi. Masalan, eng mashhur va muvaffaqiyatli usullardan biri Levenberg-Marquardt (LM) usuli, Hessianni kvadratik Jacobian yordamida yaqinlashtirish bilan almashtiradi. Men bu erda tafsilotlarni bilmayman.
Ammo biz ushbu ikkita usul haqida bilishimiz muhim bo'lgan narsa LM algoritmi butun mashg'ulotlar majmuasini qayta ishlashni talab qilishidir, holbuki gradient tushirish algoritmi har bir o'quv to'plami bilan ishlashi mumkin. Ikkinchi holda, algoritm stoxastik gradyan deb ataladi. Bizning ma'lumotlar bazamizda 60,000 o'quv namunalari mavjudligini hisobga olsak, stoxastik gradient biz uchun ko'proq mos keladi. Stokastik gradientning yana bir afzalligi shundaki, u LM bilan solishtirganda mahalliy minimal qiymatga kamroq sezgir bo'ladi.
Keyinchalik eslatib o'tadigan LM algoritmining stoxastik modifikatsiyasi ham mavjud.
Taqdim etilgan formulalar chiqish qatlamidagi og'irliklar bo'yicha xatoning hosilasini hisoblashni osonlashtiradi. AI-da keng tarqalgan xatolarni orqaga qaytarish usuli, yashirin qatlamlarda xatoni hisoblash imkonini beradi.
Do'stlaringiz bilan baham: |