81
sozlangan genetik algoritm bilan ham amalga oshiriladi
(atrof-muhit) maqsadga erishish uchun. Agent harakatlarni tanlaydi, atrof-muhit
vaziyatlarga mukofot
shaklida mustahkamlovchi r hosil qilib javob beradi.
qoidalar to'plamiga krossover protsedurasini takroran qo'llash
to'siqlar yoki boshqa robotlar va odamlar. Mustahkamlovchi ta'lim o'quvchi
(agent) va atrof-muhitning o'zaro ta'siriga asoslanadi.
va qoidalarni ishga tushirish yoki bo'shashtirish uchun chegaralar. Bo'lishi mumkin
Tibbiy kuzatuvlarga asoslanib,
d =
infarkt tashxisini
qo'ygan Frame1ning
avlodi yanada real tasvirni beradi. Ko'pchilik
robotning mavjud bo'lgan muhit bilan o'zaro munosabati
ramkalarda). Keyingi bosqich - ramkalarning ichki tuzilishini aniqlash ishonch
koeffitsientlarini o'rnatish bilan bog'liq
yaxshi harakat yoki yomon ish uchun jazo uchun (2.11-rasm).
O'quv tizimini mustahkamlovchi. Ular robototexnika
sohasida istiqbolli
ekanligini isbotladi va avtomatik ravishda shakllantirish imkonini berdi
mos keladigan mezon bo'yicha ramka parametrlarini optimallashtirish bo'yicha.
kasallik diagnostikasi uchun o'rnatilgan (qoidalar tuzilishini optimallashtirish).
eng yaxshisini olish uchun slotlarning qiymatlarini aniqlashtirishga imkon beradi
2.11-rasm. O'rganishni kuchaytirish printsipi
Machine Translated by Google
t
t
tajriba natijasida. Treningning maqsadi vaqt o'tishi bilan mukofotlarning
umumiy sonini
maksimal darajada oshirishdir.
Bunday tizimni qo'llashga misol mobil ta'limdir.
unda rag'batlantirish va optimal harakatlarni tanlash shakllanadi
of standing
st ichiga harakatni tanlash ehtimoli bu holatda
PS . Ushbu ehtimollikni
optimallashtirish natijasida siyosat shakllanadi
Aslida, bu usul agentni siyosatini o'zgartirishga o'rgatadi
turli vaziyatlarda agent:
har bir shtatda ruxsat etilgan harakatlarni bajarishda o'tishlar. Harakat va kutilgan ta'sirga
ko'ra
s Psa ÿ ÿ
muammolarni hal qilish kerak: o'z hududida paydo bo'lishini
kutish
turli shtatlarda baholash funksiyasidan foydalaniladi.
Chiqindilarni yig'ish roboti. Har qanday vaqtda robot
- agent siyosati.
ga mos keladigan ikki davlatning Markov tarmog'i tomonidan tasvirlangan
: (, )
axlat qutisi, bu qutini topish va tozalash, batareyalarni zaryad qilish uchun bazaga qaytish.
Robotning xatti-harakati bo'lishi mumkin
kutish va
past daraja - bazaga qoldirib, batareyalarni zaryadlash. Markov tarmog'i ikkita holat
tugunlari va to'plamdan iborat
batareya quvvatining ikki darajasi - yuqori va past. Yuqori energiya holatida robot qidiruvni
amalga oshirishi mumkin yoki
Har bir
t bosqichida
agent co dan xaritani tuzadi
82
a
a
tSt
Machine Translated by Google
83
3-bob
quyidagi vazifalarning sifatini oshirish:
- hissiy ma'lumotlarni qayta ishlash
mustaqil sifat jihatidan yangi avlod sifatida maydonga chiqdi.
talab qiladigan bunday murakkab operatsiyalarni aniq bajarish
Do'stlaringiz bilan baham: