JavaScript для глубокого обучения 2021 TensorFlow js Ббк



Download 30,75 Mb.
Pdf ko'rish
bet371/457
Sana27.03.2022
Hajmi30,75 Mb.
#513488
1   ...   367   368   369   370   371   372   373   374   ...   457
Bog'liq
Цэй Ш., Байлесчи С., и др. - JаvaScript для глубокого обучения (Библиотека программиста) - 2021


Глава 11. Основы глубокого обучения с подкреплением
451
Компьютерные игры наподобие змейки также попадают под формулировку MDP. 
Расположение на доске змейки и фруктов полностью характеризует состояние игры, 
этой информации вполне достаточно для продолжения игры с текущего момента 
или для выбора агентом следующего действия.
И хотя игры наподобие шахмат и «Змейки» прекрасно согласуются с требова­
ниями MDP, число состояний в них зачастую чрезвычайно велико. Для интуитивно 
понятной и наглядной иллюстрации MDP нам понадобится более простой пример. 
На рис. 11.10 мы покажем очень простую задачу MDP, в которой есть всего семь воз­
можных состояний и два возможных действия агента. Переходы между состояниями 
определяются следующими правилами.
z
z
Начальное состояние — всегда 
s
1
.
z
z
Из состояния 
s
1
при выполнении агентом действия 
a
1
среда переходит в состоя­
ние 
s
2
. При выполнении же агентом действия 
a
2
среда переходит в состояние 
s
3
.
z
z
Из каждого из состояний 
s
2
и 
s
3
переход среды в следующее состояние определя­
ется аналогичным набором правил ветвления.
z
z
Состояния 
s
4

s
5

s
6
и 
s
7
— завершающие: по достижении любого из этих состояний 
эпизод завершается.
Итак, каждый из эпизодов этой задачи RL длится ровно три шага. Каким образом 
агент в этой задаче RL выбирает действие на первом и втором шагах? Поскольку 
речь идет о задаче RL, данный вопрос имеет смысл только в терминах вознагра­
ждений. В MDP каждое действие приводит не только к переходу в другое состояние, 
но и получению вознаграждения. На рис. 11.10 вознаграждения изображены в виде 
стрелок, соединяющих действия со следующими состояниями и помеченных 
r
=
<величина_вознаграждения>
. Цель агента, конечно, — максимизировать суммарное 
вознаграждение (дисконтированное на определенный коэффициент). Теперь пред­
ставьте себе, что вы агент на первом шаге. Давайте задумаемся, какие рассуждения 
позволят нам решить, какое действие — 
a
1
или 
a
2
— лучше. Пусть коэффициент 
дисконтирования вознаграждения (
γ
) равен 0,9.
Ход рассуждений может быть следующим. Если выбрать действие 
a
1
, мы не­
медленно получим вознаграждение –3 и перейдем в состояние 
s
2
. Если выбрать 
действие 
a
2
, мы немедленно получим вознаграждение 3 и перейдем в состояние 
s
3

Значит ли это, что 
a
2
— лучший вариант, поскольку 3 больше, чем –3? Ответ: нет, 
поскольку 3 и –3 — всего лишь немедленные вознаграждения и мы не учли возна­
граждения с последующих шагов. Необходимо найти 
наилучший возможный
исход 
для 
s
2
и 
s
3
. Какой исход для 
s
2
— наилучший? Ответ: порождаемый действием 
a
2

которое дает вознаграждение 10. Таким образом, максимальное дисконтированное 
вознаграждение, которое только можно ожидать, если выполнить в состоянии 
s
1
действие 
a
1
, равно:
Максимальное вознаграждение
при действии 
a
1
в состоянии 
s
1
= немедленное вознаграждение + дисконтиро­
ванное будущее вознаграждение =
= –3 + 
γ

10 =
= –3 + 0,9 

10 =
= 6


452
Download 30,75 Mb.

Do'stlaringiz bilan baham:
1   ...   367   368   369   370   371   372   373   374   ...   457




Ma'lumotlar bazasi mualliflik huquqi bilan himoyalangan ©hozir.org 2024
ma'muriyatiga murojaat qiling

kiriting | ro'yxatdan o'tish
    Bosh sahifa
юртда тантана
Боғда битган
Бугун юртда
Эшитганлар жилманглар
Эшитмадим деманглар
битган бодомлар
Yangiariq tumani
qitish marakazi
Raqamli texnologiyalar
ilishida muhokamadan
tasdiqqa tavsiya
tavsiya etilgan
iqtisodiyot kafedrasi
steiermarkischen landesregierung
asarlaringizni yuboring
o'zingizning asarlaringizni
Iltimos faqat
faqat o'zingizning
steierm rkischen
landesregierung fachabteilung
rkischen landesregierung
hamshira loyihasi
loyihasi mavsum
faolyatining oqibatlari
asosiy adabiyotlar
fakulteti ahborot
ahborot havfsizligi
havfsizligi kafedrasi
fanidan bo’yicha
fakulteti iqtisodiyot
boshqaruv fakulteti
chiqarishda boshqaruv
ishlab chiqarishda
iqtisodiyot fakultet
multiservis tarmoqlari
fanidan asosiy
Uzbek fanidan
mavzulari potok
asosidagi multiservis
'aliyyil a'ziym
billahil 'aliyyil
illaa billahil
quvvata illaa
falah' deganida
Kompyuter savodxonligi
bo’yicha mustaqil
'alal falah'
Hayya 'alal
'alas soloh
Hayya 'alas
mavsum boyicha


yuklab olish