Qiymatlar funksiyasini hisoblash
Keling, "N-qo'l bandit" muammosi misolida qiymatlar funktsiyasini hisoblash misolini ko'rib chiqaylik, bunda o'yinchi (agent) N to'plamidan eng katta foyda keltiradigan bitta tutqichni tanlashi kerak. O'yinchining yakuniy maqsadi T iteratsiyalar bo'yicha umumiy mukofotni maksimal darajada oshirishdir. Berilgan sharoitlarda har bir harakat kutilgan (yoki o'rtacha) mukofot qiymatiga ega bo'lib, u harakat qiymati deb ataladi. Agar barcha harakatlarning qiymatlari o'yin boshlanishidan oldin ma'lum bo'lsa, unda bu muammoni hal qilish ahamiyatsiz bo'lib qoladi - o'yinchi har doim eng yuqori mukofotga ega bo'lgan tutqichni tanlashi kerak. Biroq, ma'lum harakatlar uchun mukofotlarning qiymatlari oldindan ma'lum emas, lekin ma'lum bir harakat uchun mukofotning qaysi qiymati ilgari olinganiga qarab taxmin qilinishi mumkin. Agar o'yinchi ilgari bajarilgan harakatlari uchun barcha mukofotlarni eslab qolsa, unda ular orasida mukofotning maksimal kutilgan qiymatiga ega bo'lgan harakat bo'lishi aniq - bu ochko'zlik (greedy) harakati deyiladi. Agar siz keyingi bosqichda bunday harakatni tanlasangiz, bu atrof-muhit haqidagi bilimlardan foydalanish sifatida talqin qilinishi mumkin. Biroq, agar ochiq ochko'zlik (greedy) o'rniga boshqa kutilgan mukofot qiymatiga ega bo'lgan harakat tanlangan bo'lsa, unda bunday qadam atrof-muhitni o'rganish sifatida talqin qilinishi mumkin, chunki bu tanlangan uchun kutilgan mukofotning qiymatini yaxshilashga imkon beradi. harakat va atrof-muhit haqida ko'proq ma'lumot olish. Shunday qilib, quyidagicha intuitiv xulosa chiqarish mumkin - mavjud bilimlardan foydalanish joriy bosqichda mukofotni maksimal darajada oshirish uchun optimal harakatdir, tadqiqot esa uzoq muddatda yuqori umumiy mukofot olish imkonini beradi.
Shunday qilib, mukofotning kutilayotgan qiymatini hisoblash metodologiyasi (ya'ni, qiymatlar funktsiyasi) keyingi bosqichni baholash va tanlashda kalit hisoblanadi. Qiymatlar funktsiyasini hisoblashning eng oddiy, ammo shunga qaramay samarali va eng ko'p qo'llaniladigan usullaridan biri bu o'rtacha namunaviy usul (sample average) bo'lib, uni quyidagi formulada ifodalash mumkin:
Bunda
Qt(a) – T qadamda A harakatlardan kutilgan natija;
rka – k-qadamda mukofot qiymati;
ka – A harakatning hozirgi iteratsiyalari qiymati.
T bosqichida mukofotning hozirgi qiymatini (kutilgan qiymat bilan adashtirmaslik kerak) belgilaymiz:
Bunda
Shubhasiz, keyingi harakatni tanlashning eng oddiy qoidasi - bu mukofotning maksimal joriy qiymatiga ega bo'lgan harakatni tanlash, ya'ni T bosqichida a* ochko'z harakatlaridan birini tanlash bo’ladi, buning uchun:
Yuqoridagi usulga oddiy muqobil alternativasi ko'p hollarda eng yuqori mukofot qiymatiga ega bo'lgan harakatlarni tanlaydigan, lekin ma'lum bir kichik ε ehtimollik bilan, tasodifiy ravishda biron bir qadamda boshqa harakatni tanlaydigan usul bo'ladi. Bunday usul e-ochko'zlik (ε-greedy) [18] deb ataladi va ushbu konvergensiya shartini ta'minlaydi:
Boshqacha qilib aytganda, k takrorlashning yetarlicha yuqori soni uchun har bir qadam oxir-oqibat o'rganilib, keyingi bosqichlarning optimalligini kafolatlaydi.
Harakatni vaznli tanlash usuli
Do'stlaringiz bilan baham: |