Удивительная эффективность функции активации ReLU
ReLU faollashtirish funktsiyasining ajoyib samaradorligi
отличие от сигмоиды и tanh, функция активации ReLU не страдает от проблемы ис-чезающего градиента. Использование максимума в качестве функции активации мо-жет внести разреженность в выход слоя. Исследования показывают, что глубокие сети с блоками линейной ректификации хорошо обучаются даже без применения методов предобучения.
sigmasimon va tanhdan farqli o'laroq, ReLU faollashuvi yo'qolayotgan gradient muammosidan aziyat chekmaydi. Maksimal aktivatsiya funktsiyasidan foydalanish qatlamning chiqishiga kamlik kiritishi mumkin. Tadqiqotlar shuni ko'rsatadiki, chiziqli rektifikatsiya bloklari bo'lgan chuqur tarmoqlar, hatto tayyorgarlikdan oldingi usullardan foydalanmasdan ham yaxshi o'qitilgan.
ReLU с утечкой
ReLU kamchiligi bilan
Блоки ReLU с утечкой призваны сгладить проблему «умирающего ReLU»2. При x < 0 ReLU с утечкой не обращается в нуль, а имеет небольшой отрицательный наклон (например, порядка 0.01). При использовании этого варианта ReLU иногда удава-лось добиться успеха, но результаты не всегда стабильны. Функция определена следующим образом:
Noqonuniy ReLUlar "o'layotgan ReLU" muammosini engillashtirish uchun mo'ljallangan. X <0 uchun, oqish ReLU yo'qolmaydi, lekin kichik salbiy tomonga ega (masalan, 0.01 tartibida). Ushbu parametrdan foydalanib, ReLU ba'zan muvaffaqiyatli bo'ldi, ammo natijalar har doim ham barqaror emas.
Funktsiya quyidagicha aniqlanadi:
Функция softplus
Softplus funktsiyasi
Эта функция активации, изображенная на рис. 2.15, считается «гладким вариан-том ReLU».
Ushbu faollashtirish funktsiyasi sek. 2.15 "ReLU ning silliq versiyasi" deb hisoblanadi.
Как видим, функция softplus, определяемая уравнением f(x) = ln[1 + exp(x)], по форме похожа на ReLU. Но, в отличие от ReLU, она всюду дифференцируема, и ее производная нигде не обращается в нуль.
Ko'rib turganingizdek, f (x) = ln [1 + exp (x)] tenglama bilan aniqlangan softplus funktsiyasi ReLUga o'xshash. Ammo, ReLU-dan farqli o'laroq, u hamma joyda farqlanadi va uning hosilasi hech qaerda yo'qolmaydi.
Рис. 2.15 Сравнение функций активации ReLU и softplus
ReLU va softplus aktivatsiya funktsiyalarini taqqoslash
Karpathy Li. CS231n: Convolutional Neural Networks for Visual Recognition (Course Notes) // http://cs231n.stanford.edu and http://cs231n.github.io.
76 Основы нейронных сетей и глубокого обучения
0>
Do'stlaringiz bilan baham: |