Nazorat ostida oʻrganish[tahrir | manbasini tahrirlash]
Nazorat ostidagi oʻrganish juftlashtirilgan kirishlar va kerakli natijalar toʻplamidan foydalanadi..Bu holda xarajat funksiyasi notoʻgʻri ajratmalarni bartaraf etish bilan bogʻliq.[57] Keng tarqalgan ishlatiladigan xarajat oʻrtacha kvadrat xato boʻlib, u tarmoqning chiqishi va kerakli natija oʻrtasidagi oʻrtacha kvadrat xatoni minimallashtirishga harakat qiladi. Nazorat ostida oʻrganish uchun mos boʻlgan vazifalar naqshni aniqlash (klassifikatsiya deb ham ataladi) va regressiya (funksiyani yaqinlashish deb ham ataladi) hisoblanadi. Nazorat ostida oʻrganish ketma-ket maʼlumotlarga ham tegishli (masalan, qoʻlda yozish, nutq va imo- ishoralarni aniqlash uchun).
Nazoratsiz oʻrganish[tahrir | manbasini tahrirlash]
Xarajatlar funksiyasi vazifaga (model sohasi) va har qanday apriori taxminlarga (modelning yashirin xususiyatlari, uning parametrlari va kuzatilgan oʻzgaruvchilar) bogʻliq. Arzimas misol sifatida modelni koʻrib chiqing �(�)=� qayerda � doimiy va xarajat hisoblanadi �=�[(�−�(�))2] . Xarajat funksiyasi ancha murakkab boʻlishi mumkin. Uning shakli qoʻllanilishiga bogʻliq: masalan, siqishda u oʻrtasidagi oʻzaro maʼlumot bilan bogʻliq boʻlishi mumkin � va �(�) , holbuki, statistik modellashtirishda bu maʼlumotlar berilgan modelning posterior ehtimoli bilan bogʻliq boʻlishi mumkin (esda tutingki, bu ikkala misolda ham bu miqdorlar minimallashtirilgan emas, balki maksimallashtiriladi).
Oʻrganishni mustahkamlash[tahrir | manbasini tahrirlash]
Video oʻyinlarni oʻynash kabi ilovalarda aktyor bir qator harakatlarni amalga oshiradi va har biridan keyin atrof-muhitdan umuman oldindan aytib boʻlmaydigan javob oladi. Oʻqitishni mustahkamlashda maqsad uzoq muddatli (kutilgan yigʻilgan) xarajatlarni minimallashtiradigan harakatlarni amalga oshirish uchun tarmoqni tortish (siyosatni ishlab chiqish) hisoblanadi. Vaqtning har bir nuqtasida agent biror harakatni amalga oshiradi va atrof-muhit baʼzi (odatda nomaʼlum) qoidalarga koʻra kuzatuv va bir lahzalik xarajatlarni keltirib chiqaradi. Har qanday vaziyatda agent xarajatlarni aniqlash uchun yangi harakatlarni oʻrganish yoki tezroq davom etish uchun oldingi oʻrganishdan foydalanishga qaror qiladi.
Rasmiy ravishda atrof-muhit davlatlar bilan Markov qaror jarayoni (MDP) sifatida modellashtirilgan �1,...,��∈� va harakatlar �1,...,��∈� . Holatga oʻtishlar nomaʼlum boʻlgani uchun uning oʻrniga ehtimollik taqsimotlari qoʻllaniladi: lahzali xarajatlar taqsimoti �(��|��) , kuzatish taqsimoti �(��|��) va oʻtish taqsimoti �(��+1|��,��) , siyosat esa kuzatishlar berilgan harakatlar boʻyicha shartli taqsimlash sifatida belgilanadi.
SNT bunday ilovalarda oʻrganish komponenti boʻlib xizmat qiladi.[58][59] SNT bilan birgalikda dinamik dasturlash (neyrodinamik dasturlash)[60] SNT qobiliyati tufayli transport vositalarini marshrutlash,[61] video oʻyinlar, tabiiy resurslarni boshqarish[62][63] va tibbiyot[64] kabi muammolarga qoʻllanilgan. nazorat masalalarini echish uchun sonli yaqinlashish uchun diskretizatsiya tarmogʻining zichligini kamaytirishda ham aniqlik yoʻqotilishini kamaytirish.