2. Markovning qaror qabul qilish modeli.
Matematik nuqtai nazardan, mustahkamlash bilan o’qitish Markov Decision Process (MDP) modeli nuqtai nazaridan yaxshi tavsiflangan (5.2-rasm).
5.2 - rasm. Markov qaror qabul qilish modeli.
Modelda 4 ta asosiy to'plam mavjud {S, A, P, R}, bu erda:
S – berilgan vaqtda agent bo'lishi mumkin bo'lgan holatlar to'plami
A - agentning ma'lum bir vaqtda bajarishi mumkin bo'lgan harakatlar to'plami;
P - S holatda bo'lgan holda, agent A harakatini bajarib, t + 1 vaqt ichida S' holatga o'tishi ehtimoliklar to'plami;
R - S holatidan S' holatiga o'tganligi uchun olingan mukofotlar to'plami.
Mustahkamlash bilan o’qitishga asoslangan ta'lim nazariyasi doirasida S va P to'plamlari ko'pincha hisoblangan qiymatlarning yagona to'plami Q - sifatida talqin etiladi (baholash qadriyatlar), bu olingan mukofotning qiymatiga, shuningdek, berilgan harakat bajarilgan holatga (t bosqich) bog'liq bo’ladi. Shunday qilib, qo'yilgan muammodagi harakatlarni optimallashtirish mexanizmini quyidagi formula orqali ifodalash mumkin [18]:
5.2-rasmda {a0, a1} ikkita amaldan birini bajarishda uchta {s0,s1, s2} holatdan biriga oʻtish ehtimoli koʻrsatilgan. Shunday qilib, yuqorida tavsiflangan modeldan mustahkamlash bilan o’qitish ikkita asosiy vazifasini ajratib ko'rsatish mumkin:
1) mukofotlar olingandan keyin hisoblangan Q qiymatlari to'plamini qanday yangilnishi kerak?
Eng oddiy usul - A faoliyatidan olingan mukofotlar o'rtacha qiymatini yangilash va saqlash (Sample Average usul deb ataladi).
2) qanday qilib, P va S to'plamlariga ega bo'lib turib , A to'plamdan harakatni tanlash kerak?
Eng keng tarqalgan usullar - maksimal mukofot qiymatiga ega bo'lgan harakatni tanlash (greedy usuli), shuningdek, e-greedy usuli, softmax usuli va boshqalar [18].
Mavjud barcha mustahkamlash bilan o’qitish algoritmlari ushbu ikkita vazifaga asoslangan bo'lib, ular harakatning ehtimolliklarini yangilash algoritmlarini, shuningdek, qo'llaniladigan vazifaga qarab harakatni tanlash algoritmlarini o'z ichiga oladi.
Mustahkamlash bilan o’qitish o’qituvchi nazoratidagi o'qitishdan farq qiladi, chunki u kiruvchi ma'lumotlar to'plamiga mos keladigan statistik funktsiyani topish vazifasini qo'ymaydi. Aksincha, mustahkamlash bilan o’qitishda agentning mohiyati kiritiladi, u real vaqt rejimida berilgan muhit bilan o'zaro ta'sir qiladi va olingan fikr-mulohazalar (mukofot) asosida o'z xatti-harakatlarini tuzatadi. O’qituvchi nazorati ostidagi ta'limda esa oldindan "maqsadli ma'lumotlar to'plami" mavjud bo'lgan o'qituvchi mavjud. Shunday qilib, agent asta-sekin o'zi bilan munosabatda bo'lgan muhit haqidagi bilimini yaxshilaydi va optimal yoki optimalga yaqin bo'lgan universal xulq-atvor modelini topadi. Bundan tashqari, ko'pincha agent atrof-muhit bilan uning xususiyatlari, shuningdek, agentning muayyan harakatlari uning holatiga qanday ta'sir qilishi haqida dastlabki tasavvurga ega bo'lmagan holda o'zaro ta'sir qiladi deb taxmin qilinadi. O'quv jarayonida agent ikkita asosiy matematik amalni bajaradi: mukofotlar haqidagi joriy ma'lumotlar asosida keyingi harakatni tanlash va tanlangan harakat atrof-muhitga va mukofotning kelajakdagi qiymatiga qanday ta'sir qilishini tahlil qilish / bashorat qilish. Hozirgi vaqtda mustahkamlash bilan o’qitish nazariyasi matematik statistika va operatsiyalarni tadqiq qilish nazariyalaridan ancha uzoqda qo'llaniladi. Ta'limni mustahkamlashning ajralmas qismi bo'lgan eng katta tadqiqot yo'nalishlaridan biri bu amaliy muhandislik fanlari, xususan, telekommunikatsiyalar bilan bog'liq fan sohalaridir (№11 va №14 ma'ruzalar).
Do'stlaringiz bilan baham: |