Глава 11. Основы глубокого обучения с подкреплением
457
чему же мы предпочли DQN подобной поисковой таблице? Дело в том, что даже при
относительно небольшом размере доски (9
×
9) число возможных позиций на ней
слишком велико
1
, что приводит к двум основным проблемам подхода с поисковой
таблицей. Вопервых, такая громадная поисковая таблица не поместится в RAM
системы. Вовторых, даже если нам удастся создать систему с достаточным объемом
памяти, обход всех состояний агентом во время обучения с подкреплением займет
непозволительно много времени. Благодаря небольшому размеру (около 1 миллиона
параметров) DQN решает первую (нехватка памяти) проблему. А благодаря спо
собностям нейронных сетей к обобщению — вторую (время, необходимое на обход
состояний). Как мы видели в предыдущих главах, нейронная сеть не обязательно
должна видеть все возможные входные сигналы; она постепенно обучается интер
полировать обучающие примеры данных посредством обобщения. Следовательно,
при использовании DQN мы убиваем двух зайцев одним выстрелом.
11.3.4. Обучение глубокой Q-сети
Теперь у нас есть DQN для оценки Qзначений трех возможных действий на
каждом шаге игры «Змейка». Для получения максимально возможного сово
купного вознаграждения нам достаточно запустить DQN на основе наблюдений
на каждом шаге и выбрать действие с максимальным Qзначением. Все готово?
Нет, поскольку DQN пока что не обучена! Без должного обучения DQN содержит
лишь заданные случайным образом начальные значения весовых коэффициентов
и будет предлагать действия не лучше взятых «с потолка». Таким образом, мы
свели задачу RL змейки к вопросу обучения DQN, который мы в этом разделе
и обсудим. Процесс этот не совсем прост. Но не волнуйтесь: мы приведем мно
жество схем, сопровождаемых фрагментами кода, для пошаговой иллюстрации
алгоритма обучения.
1
Приблизительный подсчет показывает, что количество возможных позиций на доске — как
минимум порядка 10
15
, даже если ограничить длину змейки 20 клетками. Например, рас
смотрим змейку длиной 20. Вопервых, существует 9
×
9 = 81 возможных местоположений
для головы змейки. А далее — четыре варианта расположения первого сегмента ее тела,
три варианта расположения второго сегмента и т. д. Конечно, при некоторых вариантах
размещения тела змейки вариантов будет меньше трех, но на порядок величин это особо
не повлияет. Таким образом, можно приблизительно оценить число возможных размеще
ний тела змейки длиной 20 как 81
×
4
×
3
18
≈
10
12
. А если учесть, что каждому размещению
тела змейки соответствует 61 возможное местоположение фрукта, оценка количества
возможных совместных размещений змейки и фрукта вырастает до 10
14
. Аналогично
можно оценить число вариантов и для меньшей длины тела змейки, от 2 до 19. Суммируя
все оценки для длин от 2 до 20, получаем величину порядка 10
15
. Количество пикселов
в компьютерных играх, таких как Atari 2600, намного превышает число клеток на нашей
доске для змейки, а потому еще меньше подходит для использования поисковой таблицы.
Это одна из причин, почему для решения связанных с подобными компьютерными играми
задач с помощью RL подходят DQN, как было показано в переломной статье 2015 года,
написанной специалистами из DeepMind Владимиром Мнихом и др.
458
Do'stlaringiz bilan baham: |