Siyosatlar (MQQlar uchun “planlar
• Statsionar bo’lmagan siyosat [garchi statsionar dinamikalar va qiymatimiz bo ’lsa ham]
n:S x T ^ A, bu yerda T manfiy bo’magan butun sonlar
n(s,t) bu s holatda t qadam bilan bajarish
Nima bo’aldi agar biz buni cheksiz bajarishni
davom ettirsak?
Stationary siyosat
n:S —— A
n(s) bu s holatda bajarish (vaqtga bog’liq bo’magan holda)
Davomiy reaktiv kontrol qiluvchilarni anglatadi
Bu quyidagi qiymatlarni tahmin qiladis:
To’liq tahlil
Tarix mustaqilligi
Deterministik harakat tanlovi
Agar sen 20 yoshda bo’lsang va liberal bo’lmasang, sen yuraksizsan. Agar sen 40 yoshda bo’lsang va konservativ bo’lmasang sen aqlsizsan cherchill. Nimaga harakatlar ketma-ketligini hisobga olish kerak emas?
Nimaga boshqatdan planlashtrirish kerak emas?
Siyosatli qiymat
П siyosati qanchalar yaxshi?
How do we measure “accumulated” yig’ilgan reward?
Value function V: S —E associates value with each state (or each state and time for non-stationary n)
Vn(s) denotes value of policy at state s
Depends on immediate reward, but also what you achieve subsequently by following n
An optimal policy is one that is no worse than any other policy at any state
The goal of MDP planning is to compute an optimal policy (method depends on how we define value)
Markov zanjirlarining keng klassi
Biz muhokama qilganimizdek, MCMC usullaridan foydalanish Markov zanjiri qurilishiga asoslanadi istalgan xususiyatlarga ega: muntazamlik va maqsadli statsionar taqsimot. Avvalgi bo'limida biz Gibbs zanjiri, oddiy Markov zanjiri haqida gapirib berdik ba'zi bir taxminlarga asoslangan xususiyatlar. Ammo, Gibbsning namunalarini olish faqat ma'lum bo'lgan hollarda qo'llaniladi shartlar; xususan, biz R (Xi | x-i) taqsimotidan namuna olishimiz kerak. Ushbu namuna olish bosqichi alohida grafik modellar uchun oson bo'lsa-da, doimiy modellarda shartli tarqatish, namuna olish imkonini beruvchi parametrik shaklga ega bo'lishi mumkin emas, Gibbsning qo'llanishi mumkin emas. Bundan ham muhimi, Gibbs zanjiri davlat maydonida faqat mahalliy harakatlardan foydalanadi:
□ bir vaqtning o'zida bir o'zgaruvchini o'zgartiradi. Argumentlar qattiq bog'langan modellarda,
Bunday harakatlar ko'p hollarda vaziyatlardan yuqori bo'lgan davlatlardan kelib chiqadi ehtimollik juda past. Bunday holatda yuqori ehtimoliy holatlar kuchli havzalarni hosil qiladi va bunday zanjir bunday holatdan uzoqlashishi mumkin emas; anavi, zanjir juda sekin aralashadi. Bunday holatda biz tez-tez ruxsat beradigan zanjirlarni ko'rib chiqmoqchimiz keng doiradagi harakatlar, shu jumladan, maydonda juda katta qadamlar. Ushbu bo'limda rivojlanishimiz, keng zanjirlar oilasini kafolatlash usuli bilan qurishga imkon beradi, kerakli statsionar tarqatish.
Markov zanjiri qanday qilib stantsiyani qurish haqida savol berishdan
oldin
tarqatish orqali biz Markov zanjirining osongina qanday tekshirilishini savolga tutamiz istalgan barqaror taqsimot. Yaxshiyamki, biz mahalliy va oson tekshirishni sinab ko'rishimiz mumkin, va bu statsionar taqsimotni xarakterlash uchun kifoya qiladi. Ko'rib turganimizdek, bu sinov ham taqdim etiladi bizni to'g'ri zanjir qurish uchun oddiy usul bilan.
Do'stlaringiz bilan baham: |