Глава 11. Основы глубокого обучения с подкреплением
451
Компьютерные игры наподобие змейки также попадают под формулировку MDP.
Расположение на доске змейки и фруктов полностью характеризует состояние игры,
этой информации вполне достаточно для продолжения игры с текущего момента
или для выбора агентом следующего действия.
И хотя игры наподобие шахмат и «Змейки» прекрасно согласуются с требова
ниями MDP, число состояний в них зачастую чрезвычайно велико. Для интуитивно
понятной и наглядной иллюстрации MDP нам понадобится более простой пример.
На рис. 11.10 мы покажем очень простую задачу MDP, в которой есть всего семь воз
можных состояний и два возможных действия агента. Переходы между состояниями
определяются следующими правилами.
z
z
Начальное состояние — всегда
s
1
.
z
z
Из состояния
s
1
при выполнении агентом действия
a
1
среда переходит в состоя
ние
s
2
. При выполнении же агентом действия
a
2
среда переходит в состояние
s
3
.
z
z
Из каждого из состояний
s
2
и
s
3
переход среды в следующее состояние определя
ется аналогичным набором правил ветвления.
z
z
Состояния
s
4
,
s
5
,
s
6
и
s
7
— завершающие: по достижении любого из этих состояний
эпизод завершается.
Итак, каждый из эпизодов этой задачи RL длится ровно три шага. Каким образом
агент в этой задаче RL выбирает действие на первом и втором шагах? Поскольку
речь идет о задаче RL, данный вопрос имеет смысл только в терминах вознагра
ждений. В MDP каждое действие приводит не только к переходу в другое состояние,
но и получению вознаграждения. На рис. 11.10 вознаграждения изображены в виде
стрелок, соединяющих действия со следующими состояниями и помеченных
r
=
<величина_вознаграждения>
. Цель агента, конечно, — максимизировать суммарное
вознаграждение (дисконтированное на определенный коэффициент). Теперь пред
ставьте себе, что вы агент на первом шаге. Давайте задумаемся, какие рассуждения
позволят нам решить, какое действие —
a
1
или
a
2
— лучше. Пусть коэффициент
дисконтирования вознаграждения (
γ
) равен 0,9.
Ход рассуждений может быть следующим. Если выбрать действие
a
1
, мы не
медленно получим вознаграждение –3 и перейдем в состояние
s
2
. Если выбрать
действие
a
2
, мы немедленно получим вознаграждение 3 и перейдем в состояние
s
3
.
Значит ли это, что
a
2
— лучший вариант, поскольку 3 больше, чем –3? Ответ: нет,
поскольку 3 и –3 — всего лишь немедленные вознаграждения и мы не учли возна
граждения с последующих шагов. Необходимо найти
наилучший возможный
исход
для
s
2
и
s
3
. Какой исход для
s
2
— наилучший? Ответ: порождаемый действием
a
2
,
которое дает вознаграждение 10. Таким образом, максимальное дисконтированное
вознаграждение, которое только можно ожидать, если выполнить в состоянии
s
1
действие
a
1
, равно:
Максимальное вознаграждение
при действии
a
1
в состоянии
s
1
= немедленное вознаграждение + дисконтиро
ванное будущее вознаграждение =
= –3 +
γ
⋅
10 =
= –3 + 0,9
⋅
10 =
= 6
452
Do'stlaringiz bilan baham: |