Часть III • Продвинутые возможности глубокого обучения с TensorFlow.js
z
z
reward
— вознаграждение, получаемое змейкой при каждом ходе сразу же после
действия. Представляет собой одно число.
z
z
done
— булев флаг, указывающий, завершается ли игра сразу же после данного
действия.
z
z
fruitEaten
— булев флаг, указывающий, был ли съеден на данном ходе змейкой
фрукт в результате данного действия. Учтите, что это поле избыточно, поскольку
вычислить, был ли съеден фрукт, можно на основе поля
reward
. Оно включено
для упрощения, а также расцепления конкретных величин вознаграждений (ко
торые могут играть роль настраиваемых гиперпараметров) с бинарным событием:
съеден фрукт или не съеден.
Как мы увидим далее, первые три поля (
state
,
reward
и
done
) играют важную
роль в алгоритме Qобучения, в то время как последнее поле (
fruitEaten
) служит
в основном для мониторинга.
11.3.2. Марковский процесс принятия решений
и Q-значения
Для описания алгоритма глубокого Qобучения, которым мы воспользуемся для
задачи змейки, нам придется немного углубиться в математику. В частности, мы
познакомим вас с
марковским процессом принятия решений
(Markov decision process,
MDP) и математическим аппаратом, лежащим в его основе. Не волнуйтесь: мы при
ведем простые и конкретные примеры и привяжем излагаемые понятия к задаче
змейки.
С точки зрения MDP история среды RL представляет собой последовательность
переходов между конечным множеством дискретных состояний. Кроме того, эти
переходы между состояниями удовлетворяют определенному правилу:
«Состояние
среды на следующем шаге определяется исключительно текущим состоянием и пред-
принимаемым агентом на текущем шаге действием»
.
Ключевой момент: следующее состояние зависит
только
от текущего состояния
и предпринимаемого действия и более ни от чего. Другими словами, MDP пред
полагает, что история процесса (каким образом вы попали в текущее состояние)
не должна играть никакой роли при определении, что делать далее. Это колоссальное
упрощение задачи. А что представляет собой
не марковский процесс принятия реше-
ний
? Случай, когда следующее состояние зависит не только от текущих состояния
и действия, но и от состояний или действий на предыдущих шагах, возможно на
чиная с самого начала эпизода. Математика не марковского сценария значительно
сложнее, и для вычислений понадобится намного больше вычислительных ресурсов.
Удаление требованиям MDP для многих задач RL интуитивно понятны. Хоро
ший пример — шахматы. На любом ходе игры позиция на доске (плюс то, чей ход
сейчас) полностью характеризует состояние игры и дает всю информацию, необхо
димую игроку для вычисления следующего хода. Другими словами, игрок может
продолжить игру с данной позиции, не зная предыдущих ходов (кстати, именно
поэтому газеты могут печатать шахматные задачи, расходуя очень мало места).
Do'stlaringiz bilan baham: |