Mustahkamlash bilan o’qitish nazariyasining asosiy elementlari
Agent va atrof-muhitning mohiyatiga qo'shimcha ravishda, mustahkamlash bilan o’qitish tizimining yana 4 ta asosiy elementini ajratib ko'rsatish mumkin, xususan: strategiya (policy), mukofot funktsiyasi (reward function), qiymat funktsiyasi (value function) va, ixtiyoriy ravishda, atrof-muhit modeli (environment model).
Strategiya agentning ma'lum bir vaqtda xatti-harakatlarini belgilaydi. Boshqacha qilib aytganda, strategiya - bu atrof-muhit holatlari ro'yxati va agent ushbu holatlardan biriga kirganda bajarishi kerak bo'lgan tegishli harakatlar. Ba'zi hollarda strategiya oddiy assotsiatsiyalar jadvali bo'lishi mumkin, boshqalarida esa qidiruv algoritmi kabi murakkab hisoblash jarayoni bo'lishi mumkin. Shunday qilib, strategiya agentning xatti-harakatini aniqlash uchun bitta strategiyaning o'zi kifoya qiladi, degan ma'noda mustahkamlashga asoslangan o'quv jarayonining yadrosidir. Umuman olganda, mustahkamlash bilan o’qitish strategiyalari stoxastik bo'lishi mumkin [18].
Mukofot funktsiyasi mustahkamlash bilan o’qitish vazifasi maqsadini belgilaydi. U atrof-muhit holatlari (agent bilan o'zaro munosabatda bo'lganda o'zgaradi) va ma'lum bir raqam - bajarilgan harakatning maqsadga muvofiqligi yoki muvofiq emasligini ko'rsatadigan mukofot o'rtasidagi bog'liqliklarni kiritadi. Shu nuqtai nazardan, agentning yagona vazifasi uzoq muddatli bosqichda umumiy mukofotni maksimal darajaga oshirishdir. Shubhasiz, mukofot funktsiyasi tizimning yaxshi va yomon holatini aniqlaydi va qo'shimcha ravishda o'rganish strategiyasiga ta'sir qilishi mumkin. Misol uchun, agar agent strategiyaga muvofiq biron bir harakatni bajargan bo'lsa va past mukofot qiymatini olgan bo'lsa, strategiya kelajakda ushbu vaziyatda boshqa harakatni tanlash foydasiga o'zgartirilishi mumkin. Umuman olganda, mukofot funktsiyalari stoxastik bo'lishi mumkin.
Qiymatlar funktsiyasi, mukofot funktsiyasidan farqli o'laroq, uzoq muddatda qanday harakat yaxshi yoki yomon ekanligini aniqlaydi. Taxminan aytganda, qiymat funktsiyasi ma'lum bir harakat uchun olingan barcha mukofotlarning yig'indisi bo'lib, bu harakatning uzoq muddatli "maqbulligini" ko'rsatadi. Masalan, optimal harakat hozirgi vaqtda past mukofotga ega bo'lishi mumkin, ammo uni tanlagandan so'ng, yuqori mukofotga ega bo'lgan bir qator holatlar paydo bo'lishi mumkin yoki aksincha - yuqori boshlang'ichdan keyin bir qator past mukofot qiymatlari bo'lishi mumkin. mukofot.
Mustahkamlash bilan o’qitish kontekstida, shuningdek, intuitiv mantiqdan kelib chiqqan holda, mukofot funktsiyasi qiymatlar funktsiyasidan ustun turadi, chunki mukofotlarsiz qiymatlar ham bo'lmaydi va qiymat funktsiyasining yagona maqsadi eng yuqori natijaga erishishdir. Biroq, qaror qabul qilish jarayonida asosiy narsa qiymatlar funktsiyasidir, chunki u yoki bu harakatni tanlash ushbu harakat uchun oldingi mukofotlarning joriy umumiy qiymatiga bog'liq va shu bilan uzoq muddatli bosqichda mukofotlarning o'rtacha yuqori qiymatni bashorat qiladi. Ammo, afsuski, qiymatlar funktsiyasini aniqlash vazifasi mukofot funktsiyasini aniqlashdan ko'ra qiyinroq, chunki mukofotlar to'g'ridan-to'g'ri atrof-muhitdan kelib chiqadi, qiymatlar esa vaqt o'tishi bilan hosil qiladi hamda mukofotlar ketma-ketligi va agent tomonidan kuzatuvlar asosida baholanishi kerak.
Mustahkamlash bilan o’qitish tizimini mustahkamlashning to'rtinchi va oxirgi elementi atrof-muhit modelidir. Atrof-muhit modeli, umumlashtirilgan holatda, haqiqiy muhitning muayyan sharoitlarda xatti-harakatlariga taqlid qilish bo'lib, shu bilan haqiqiy tizimning hozirgi holatidan keyingi holatini, shuningdek tanlangan harakatni taxmin qilish imkonini beradi. Ko'pincha ekologik modellar rejalashtirish uchun, ya'ni ular sodir bo'lgunga qadar harakatlar ketma-ketligini aniqlash uchun ishlatiladi. Atrof-muhit modeli - o'sha paytgacha faqat "harakat-mukofot" tamoyili asosida qurilgan mustahkamlash ta'lim tizimlarining nisbatan yangi komponentidir. Atrof-muhit modeli komponentining kiritilishi, mustahkamlashni o'rganish usullari dinamik dasturlash usullari bilan chambarchas bog'liq bo'lib, o'z navbatida holat modellaridan foydalanadi.
Do'stlaringiz bilan baham: |