Различные подходы
Turli yondashuvlar
Несмотря на математическую эквивалентность отрицательного логарифмического правдо-подобия и перекрестной энтропии, они берут начало в совершенно разных математических теориях.
Salbiy logaritmik o'xshashlik va o'zaro bog'liq entropiyaning matematik ekvivalentligiga qaramay, ular mutlaqo boshqa matematik nazariyalardan kelib chiqadi.
Гиперпараметры
Giperparametrlar
машинном обучении имеются как параметры модели, так и настраиваемые па-раметры, позволяющие сделать процесс обучения быстрее и лучше. Последние на-зываются гиперпараметрами, их цель – управление функциями оптимизации и вы-бором модели в ходе обучения согласно выбранному алгоритму. В DL4J алгоритмы оптимизации называются корректорами (updater), потому что действия, выполняе-мые алгоритмом в пространстве весов для минимизации ошибки, и есть коррекция. Настройка гиперпараметров призвана избежать недообученности и переобученно-сти сети, обеспечив вместе с тем максимально быстрое обучение структуре данных.
Mashinada o'qitish ikkala model parametrlariga ham, sozlanishi parametrlarga ham ega, bu esa o'quv jarayonini tez va sifatli qiladi. Ikkinchisiga giperparametrlar deyiladi, ularning maqsadi tanlangan algoritmga muvofiq mashg'ulotlar davomida optimallashtirish funktsiyalari va model tanlashni boshqarish. DL4J-da optimallash algoritmlari yangilanish deb nomlanadi, chunki xatolarni minimallashtirish uchun algoritm tomonidan og'irlik maydonida bajariladigan harakatlar tuzatishdir. Giperparametrlarni sozlash tarmoqni o'rganish va qayta o'qitishning oldini olish uchun, shuningdek, ma'lumotlarning strukturasida eng tezkor tayyorgarlikni ta'minlaydi.
Скорость обучения
O'qitish tezligi
Скорость обучения говорит, как сильно следует корректировать параметры в про-цессе оптимизации, чтобы минимизировать ошибку в предсказаниях нейронной сети. Это коэффициент, управляющий величиной шагов коррекции вектора пара-метров x при перемещении в пространстве функций потерь.
O'qitish tezligi, neyron tarmoqlarini bashorat qilishda xatoni minimallashtirish uchun optimallash jarayonida qancha parametrlarni sozlash kerakligini aytadi. Bu yo'qotish funktsiyalarini fazoda harakatlantirganda x parametrlarining vektorini to'g'rilash bosqichlarining kattaligini boshqaruvchi koeffitsient.
процессе обратного распространения мы умножаем градиент ошибки на ско-рость обучения, а затем вычисляем новый вес связи, прибавляя произведение
весу, полученному на предыдущей итерации. Скорость обучения определяет, какую часть градиента мы хотим использовать на очередном шаге алгоритма. Если ошибка велика, а градиент крутой, то при умножении на скорость обучения получится большой шаг. Когда мы приближаемся к области минимальной ошибки и плоского градиента, величина шага уменьшается.
Orqa tomon tarqalish jarayonida biz xato gradientini o'rganish tezligiga ko'paytiramiz va keyin oldingi iteratsiyada olingan vaznga mahsulotni qo'shib, yangi ulanish og'irligini hisoblaymiz. O'rganish tezligi biz algoritmning keyingi bosqichida qancha gradientdan foydalanishni xohlayotganimizni aniqlaydi. Agar xato katta bo'lsa va gradient tik bo'lsa, unda o'rganish tezligiga ko'paytirilsa, siz katta qadam olasiz. Minimal xato va tekis gradyan mintaqasiga yaqinlashganda, qadam hajmi kamayadi.
При большой скорости обучения (скажем, 1) параметры меняются скачкообраз-но, а при малой (например, 0.00001) – в час по чайной ложке. Большие скачки могут сэкономить время на начальном этапе, но приведут к катастрофе, если мы проскочим минимум. Тогда алгоритм начнет буксовать на месте, перепрыгивая с одной стороны минимума на другую, и никогда не остановится.
O'qishning yuqori darajasi (aytaylik, 1), parametrlar bosqichma-bosqich o'zgaradi va past (masalan, 0.00001) - soatiga bir choy qoshiq. Katta sakrash boshlang'ich bosqichda vaqtni tejashga imkon beradi, ammo agar biz minimal darajadan o'tib ketsak, falokatga olib keladi. Keyin algoritm minimal tomonning bir tomonidan ikkinchisiga sakrab, joyida siljiy boshlaydi va hech qachon to'xtamaydi.
С другой стороны, при небольшой скорости обучения мы в конце концов до-стигнем минимума (возможно, локального, а не глобального), но это может потре-бовать очень много времени и усложнить и без того сложные вычисления. Когда обучение сети на большом наборе данных занимает несколько недель, время име-ет значение. Если вы не можете ждать результатов лишнюю неделю, то выберите умеренную скорость обучения (например, 0.1) и поэкспериментируйте, стремясь одновременно добиться наилучшей скорости и верности. Скорость обучения не-обязательно задавать раз и навсегда, мы рассмотрим также методы, в которых она изменяется динамически, чтобы взять лучшее от обоих миров.
Boshqa tomondan, o'rganish tezligining pastligi bilan biz oxir-oqibat minimumga (ehtimol mahalliy, global emas) erishamiz, ammo bu ko'p vaqt talab qilishi va allaqachon murakkab hisob-kitoblarni murakkablashtirishi mumkin. Katta ma'lumot bazasida tarmoqni o'qitishda bir necha hafta vaqt talab etiladi. Agar qo'shimcha haftada natijalarni kuta olmasangiz, bir vaqtning o'zida eng yaxshi tezlik va aniqlikka erishishga harakat qilib, o'rtacha o'rganish tezligini (masalan, 0.1) va tajribani tanlang. O'qish tezligini bir marotaba belgilashning hojati yo'q, biz ikkala dunyodan eng yaxshisini olish uchun dinamik ravishda o'zgarib turadigan usullarni ham ko'rib chiqamiz.
82 Основы нейронных сетей и глубокого обучения
Do'stlaringiz bilan baham: |