MatLab dasturi yordamida Reinforcement Learning toolbox paketi bilan ishlashni oʻrganish va modellarini ishlash tahlili. Ishdan maqsad

Download 51,06 Kb.

bet	1/2
Sana	11.07.2022
Hajmi	51,06 Kb.
	#774713

1 2

Bog'liq
7-laboratoriya

1.Qisqacha nazariy ma’lumot.

Laboratoriya ishi №7

Mavzu: MatLab dasturi yordamida Reinforcement Learning toolbox paketi bilan ishlashni oʻrganish va modellarini ishlash tahlili.

Ishdan maqsad:

Sun’iy intelekt texnologiyasining Reinforcement Learning turini oʻrganish;
MatLab dasturining Reinforcement Learning toolbox paketi elementlarini va ular asosida yaratilgan modellarni oʻrganib chiqish hamda kichik model yaratish.

1.Qisqacha nazariy ma’lumot.
Oʻrganishni mustahkamlash (inglizcha, reinforcement learning) - bu mashinaviy o'rganish usullaridan biri bo'lib, unda tekshirilayotgan tizim (agent) qandaydir muhit bilan o'zaro ta'sir qilish orqali o'rgatiladi. Kibernetika nuqtai nazaridan u kibernetik eksperiment turlaridan biridir. Muhitning javobi (nazorat ostidagi oʻrganish(supervised learning)da bo'lgani kabi, maxsus mustahkamlashni boshqarish tizimi emas) qabul qilingan qarorlarga mustahkamlovchi signallardir, shuning uchun bunday o'rganish nazorat ostidagi oʻrganishning alohida holatidir, lekin o'rgatuvchi- bu muhit yoki uning modeli. Shuni ham yodda tutish kerakki, ba'zi mustahkamlash qoidalari yashirin o'rgatuvchilarga asoslangan, masalan, sun'iy neyron muhitda, formal neyronlarning bir vaqtning o'zida faoliyati, buning natijasida ular nazoratsiz o'rganish bilan bog'liq bo'lishi mumkin.
Oʻrganishni mustahkamlash - bu ketma-ket qarorlar qabul qilish uchun mashinani o'rganish modellarini o'rgatish. Agent noaniq, potentsial murakkab muhitda maqsadga erishishni o'rganadi. Oʻrganishni mustahkamlashda sun'iy intellekt o'yinga o'xshash vaziyatga duch keladi. Muammoni hal qilish uchun kompyuter sinov va xatolikdan foydalanadi. Mashina dasturchi xohlagan narsani qilishi uchun sun'iy intellekt bajargan harakatlariga mukofot yoki jazo oladi. Uning maqsadi umumiy mukofotni maksimal darajada oshirishdir (7.1-rasm).
Dizayner mukofot siyosatini, ya'ni o'yin qoidalarini belgilab qo'ygan bo'lsa-da, u modelga o'yinni qanday hal qilish bo'yicha maslahatlar yoki takliflar bermaydi. Tasodifiy umumiy sinovlardan boshlab, murakkab taktikalar va g'ayritabiiy ko'nikmalar bilan yakunlash uchun hamda mukofotni maksimal darajada oshirish uchun vazifani qanday bajarish kerakligini aniqlash modelga bog'liq. Qidiruv va ko'plab sinovlar kuchidan foydalangan holda, oʻrganishni mustahkamlash hozirda mashinaning ijodkorligini ko'rsatishning eng samarali usuli hisoblanadi. Odamlardan farqli o'laroq, sun'iy intellekt, agar kuchli o'rganish algoritmi etarlicha kuchli kompyuter infratuzilmasida ishlasa, minglab parallel o'yinlardan tajriba to'plashi mumkin.

6.1. rasm. Umumiy oʻrganishni mustahkamlash modeli

Download 51,06 Kb.

Do'stlaringiz bilan baham:

1 2