MA'RUZA №5
MUSTAHKAMLASH BILAN O’QITISHGA ASOSLANGAN TA’LIM ASOSLARI
Reja
1. Mustahkamlash bilan o`qitish asoslari.
2. Markovning qaror qabul qilish modeli.
3. Mashinani mustahkamlash bilan o’qitish nazariyasining asosiy elementlari.
4. Mustahkamlash bilan o’qitishga asoslangan ta’limning uch xil yondashuvi.
5. Dinamik dasturlash.
6. Monte-Karlo usullari.
1. Mustahkamlash bilan o`qitish asoslari.
Mashinali o'qitish nazariyasi - bu kompyuterlar bilan bog’liq fanining bir sohasi bo'lib, unda hisoblash qurilmalari aniq dasturlashtirilmasdan o'qitilish qobiliyatiga ega [34]. Boshqacha qilib aytganda, mashinali o'qitish nazariyasi kompyuterlarga ma'lum bir hisoblash muammosini hal qilish uchun algoritmlarni mustaqil ravishda ishlab chiqish imkonini beradigan matematik modellarni topish va ishlab chiqishga qaratilgan. Masalan qo'lyoz,ani optik tanish, ovozni tanish, spamni filtrlash algoritmlari, web-qidiruv algoritmlari, katta ma'lumotlar massivlarini qayta ishlash (Data Mining) va boshqalarni bugungi kunda mashinali o'qitishning vazifalari sifatida ajratib ko'rsatish mumkin.
Mashinali o'qitish nazariyasi ma'lum modellarga asoslangan va ma'lum bir o'ziga xoslikdagi muammolarni hal qiladigan ko'plab bo'limlar mavjud, masalan, neyron tarmoqlari, tayanch vektorlar usuli, genetik algoritmlar, mustahkamlash bilan o’qitish va boshqalar. Ushbu ma'ruzada asosiy matematik model sifatida Mashinali o'qitish nazariyasining mustahkamlash bilan o’qitish bo'limi algoritmlari olingan.
Mustahkamlash bilan o’qitishga asolangan ta’limda vazifani optimallashtirish jarayonini tavsiflash uchun agent, muhit va mukofot tushunchalari kiritilgan. 5.1-rasmda mustahkamlash bilan o’qitish mexanizmining umumlashtirilgan jarayoni ko'rsatilgan.
5.1-rasm. Mustahkamlash bilan o’qitishga asolangan ta'limning umumlashtirilgan mexanizmi
Agent ma'lum A harakatlar to'plamiga ega bo'lib, ular yordamida u atrof-muhit bilan o'zaro ta'sirlashadi. Ba'zi A harakatlarni bajarib, agent atrof-muhitdan mukofot oladi va olingan mukofotning qiymatiga asoslanib, tanlangan tanlovning optimalligi haqida ma'lum bir tushunchani shakllantiradi. Mustahkamlash bilan o’qitishga asolangan ta'limni tushunishni soddalashtirish uchun ushbu nazariyaning hammualliflaridan biri Richard Sutton N ta qo’lli bandit bilan bog’liq klassik misolni keltiradi. Unga ko'ra kazino o'yinchisi (agenti) oldida N tutqichli mashina (N ta harakatga ega muhit) bo’lib ma'lum bir tutqichni tanlab, o'yinchi X tanga (mukofot) oladi. Shunga ko'ra, bu holda, o'yinchining vazifasi - har bir tutqichning "narxi" haqida dastlabki ma'lumotlar bo'lmaganda, minimal harakatlar bilan maksimal tangalar sonini olishdan iborat, bu esa Mustahkamlash bilan o’qitishga asolangan ta'lim nazariyasining klassik muammosi hisoblanadi.
Do'stlaringiz bilan baham: |