Mustahkamlash bilan o’qitishga asoslangan ta’lim asoslari


Mustahkamlash bilan o’qitish nazariyasining asosiy elementlari



Download 342,68 Kb.
bet3/9
Sana17.07.2022
Hajmi342,68 Kb.
#815734
1   2   3   4   5   6   7   8   9
Bog'liq
u74s8PduXzD1Ru3xvfaqXn689GCgEmQdgiWYcHb1

Mustahkamlash bilan o’qitish nazariyasining asosiy elementlari
Agent va atrof-muhitning mohiyatiga qo'shimcha ravishda, mustahkamlash bilan o’qitish tizimining yana 4 ta asosiy elementini ajratib ko'rsatish mumkin, xususan: strategiya (policy), mukofot funktsiyasi (reward function), qiymat funktsiyasi (value function) va, ixtiyoriy ravishda, atrof-muhit modeli (environment model).
Strategiya agentning ma'lum bir vaqtda xatti-harakatlarini belgilaydi. Boshqacha qilib aytganda, strategiya - bu atrof-muhit holatlari ro'yxati va agent ushbu holatlardan biriga kirganda bajarishi kerak bo'lgan tegishli harakatlar. Ba'zi hollarda strategiya oddiy assotsiatsiyalar jadvali bo'lishi mumkin, boshqalarida esa qidiruv algoritmi kabi murakkab hisoblash jarayoni bo'lishi mumkin. Shunday qilib, strategiya agentning xatti-harakatini aniqlash uchun bitta strategiyaning o'zi kifoya qiladi, degan ma'noda mustahkamlashga asoslangan o'quv jarayonining yadrosidir. Umuman olganda, mustahkamlash bilan o’qitish strategiyalari stoxastik bo'lishi mumkin [18].
Mukofot funktsiyasi mustahkamlash bilan o’qitish vazifasi maqsadini belgilaydi. U atrof-muhit holatlari (agent bilan o'zaro munosabatda bo'lganda o'zgaradi) va ma'lum bir raqam - bajarilgan harakatning maqsadga muvofiqligi yoki muvofiq emasligini ko'rsatadigan mukofot o'rtasidagi bog'liqliklarni kiritadi. Shu nuqtai nazardan, agentning yagona vazifasi uzoq muddatli bosqichda umumiy mukofotni maksimal darajaga oshirishdir. Shubhasiz, mukofot funktsiyasi tizimning yaxshi va yomon holatini aniqlaydi va qo'shimcha ravishda o'rganish strategiyasiga ta'sir qilishi mumkin. Misol uchun, agar agent strategiyaga muvofiq biron bir harakatni bajargan bo'lsa va past mukofot qiymatini olgan bo'lsa, strategiya kelajakda ushbu vaziyatda boshqa harakatni tanlash foydasiga o'zgartirilishi mumkin. Umuman olganda, mukofot funktsiyalari stoxastik bo'lishi mumkin.
Qiymatlar funktsiyasi, mukofot funktsiyasidan farqli o'laroq, uzoq muddatda qanday harakat yaxshi yoki yomon ekanligini aniqlaydi. Taxminan aytganda, qiymat funktsiyasi ma'lum bir harakat uchun olingan barcha mukofotlarning yig'indisi bo'lib, bu harakatning uzoq muddatli "maqbulligini" ko'rsatadi. Masalan, optimal harakat hozirgi vaqtda past mukofotga ega bo'lishi mumkin, ammo uni tanlagandan so'ng, yuqori mukofotga ega bo'lgan bir qator holatlar paydo bo'lishi mumkin yoki aksincha - yuqori boshlang'ichdan keyin bir qator past mukofot qiymatlari bo'lishi mumkin. mukofot.
Mustahkamlash bilan o’qitish kontekstida, shuningdek, intuitiv mantiqdan kelib chiqqan holda, mukofot funktsiyasi qiymatlar funktsiyasidan ustun turadi, chunki mukofotlarsiz qiymatlar ham bo'lmaydi va qiymat funktsiyasining yagona maqsadi eng yuqori natijaga erishishdir. Biroq, qaror qabul qilish jarayonida asosiy narsa qiymatlar funktsiyasidir, chunki u yoki bu harakatni tanlash ushbu harakat uchun oldingi mukofotlarning joriy umumiy qiymatiga bog'liq va shu bilan uzoq muddatli bosqichda mukofotlarning o'rtacha yuqori qiymatni bashorat qiladi. Ammo, afsuski, qiymatlar funktsiyasini aniqlash vazifasi mukofot funktsiyasini aniqlashdan ko'ra qiyinroq, chunki mukofotlar to'g'ridan-to'g'ri atrof-muhitdan kelib chiqadi, qiymatlar esa vaqt o'tishi bilan hosil qiladi hamda mukofotlar ketma-ketligi va agent tomonidan kuzatuvlar asosida baholanishi kerak.
Mustahkamlash bilan o’qitish tizimini mustahkamlashning to'rtinchi va oxirgi elementi atrof-muhit modelidir. Atrof-muhit modeli, umumlashtirilgan holatda, haqiqiy muhitning muayyan sharoitlarda xatti-harakatlariga taqlid qilish bo'lib, shu bilan haqiqiy tizimning hozirgi holatidan keyingi holatini, shuningdek tanlangan harakatni taxmin qilish imkonini beradi. Ko'pincha ekologik modellar rejalashtirish uchun, ya'ni ular sodir bo'lgunga qadar harakatlar ketma-ketligini aniqlash uchun ishlatiladi. Atrof-muhit modeli - o'sha paytgacha faqat "harakat-mukofot" tamoyili asosida qurilgan mustahkamlash ta'lim tizimlarining nisbatan yangi komponentidir. Atrof-muhit modeli komponentining kiritilishi, mustahkamlashni o'rganish usullari dinamik dasturlash usullari bilan chambarchas bog'liq bo'lib, o'z navbatida holat modellaridan foydalanadi.

Download 342,68 Kb.

Do'stlaringiz bilan baham:
1   2   3   4   5   6   7   8   9




Ma'lumotlar bazasi mualliflik huquqi bilan himoyalangan ©hozir.org 2024
ma'muriyatiga murojaat qiling

kiriting | ro'yxatdan o'tish
    Bosh sahifa
юртда тантана
Боғда битган
Бугун юртда
Эшитганлар жилманглар
Эшитмадим деманглар
битган бодомлар
Yangiariq tumani
qitish marakazi
Raqamli texnologiyalar
ilishida muhokamadan
tasdiqqa tavsiya
tavsiya etilgan
iqtisodiyot kafedrasi
steiermarkischen landesregierung
asarlaringizni yuboring
o'zingizning asarlaringizni
Iltimos faqat
faqat o'zingizning
steierm rkischen
landesregierung fachabteilung
rkischen landesregierung
hamshira loyihasi
loyihasi mavsum
faolyatining oqibatlari
asosiy adabiyotlar
fakulteti ahborot
ahborot havfsizligi
havfsizligi kafedrasi
fanidan bo’yicha
fakulteti iqtisodiyot
boshqaruv fakulteti
chiqarishda boshqaruv
ishlab chiqarishda
iqtisodiyot fakultet
multiservis tarmoqlari
fanidan asosiy
Uzbek fanidan
mavzulari potok
asosidagi multiservis
'aliyyil a'ziym
billahil 'aliyyil
illaa billahil
quvvata illaa
falah' deganida
Kompyuter savodxonligi
bo’yicha mustaqil
'alal falah'
Hayya 'alal
'alas soloh
Hayya 'alas
mavsum boyicha


yuklab olish