JavaScript для глубокого обучения 2021 TensorFlow js Ббк



Download 30,75 Mb.
Pdf ko'rish
bet375/457
Sana27.03.2022
Hajmi30,75 Mb.
#513488
1   ...   371   372   373   374   375   376   377   378   ...   457
Bog'liq
Цэй Ш., Байлесчи С., и др. - JаvaScript для глубокого обучения (Библиотека программиста) - 2021


Глава 11. Основы глубокого обучения с подкреплением
457
чему же мы предпочли DQN подобной поисковой таблице? Дело в том, что даже при 
относительно небольшом размере доски (9 
×
9) число возможных позиций на ней 
слишком велико
1
, что приводит к двум основным проблемам подхода с поисковой 
таблицей. Во­первых, такая громадная поисковая таблица не поместится в RAM 
системы. Во­вторых, даже если нам удастся создать систему с достаточным объемом 
памяти, обход всех состояний агентом во время обучения с подкреплением займет 
непозволительно много времени. Благодаря небольшому размеру (около 1 миллиона 
параметров) DQN решает первую (нехватка памяти) проблему. А благодаря спо­
собностям нейронных сетей к обобщению — вторую (время, необходимое на обход 
состояний). Как мы видели в предыдущих главах, нейронная сеть не обязательно 
должна видеть все возможные входные сигналы; она постепенно обучается интер­
полировать обучающие примеры данных посредством обобщения. Следовательно, 
при использовании DQN мы убиваем двух зайцев одним выстрелом.
11.3.4. Обучение глубокой Q-сети
Теперь у нас есть DQN для оценки Q­значений трех возможных действий на 
каждом шаге игры «Змейка». Для получения максимально возможного сово­
купного вознаграждения нам достаточно запустить DQN на основе наблюдений 
на каждом шаге и выбрать действие с максимальным Q­значением. Все готово? 
Нет, поскольку DQN пока что не обучена! Без должного обучения DQN содержит 
лишь заданные случайным образом начальные значения весовых коэффициентов 
и будет предлагать действия не лучше взятых «с потолка». Таким образом, мы 
свели задачу RL змейки к вопросу обучения DQN, который мы в этом разделе 
и обсудим. Процесс этот не совсем прост. Но не волнуйтесь: мы приведем мно­
жество схем, сопровождаемых фрагментами кода, для пошаговой иллюстрации 
алгоритма обучения.

Приблизительный подсчет показывает, что количество возможных позиций на доске — как 
минимум порядка 10
15
, даже если ограничить длину змейки 20 клетками. Например, рас­
смотрим змейку длиной 20. Во­первых, существует 9 
×
9 = 81 возможных местоположений 
для головы змейки. А далее — четыре варианта расположения первого сегмента ее тела, 
три варианта расположения второго сегмента и т. д. Конечно, при некоторых вариантах 
размещения тела змейки вариантов будет меньше трех, но на порядок величин это особо 
не повлияет. Таким образом, можно приблизительно оценить число возможных размеще­
ний тела змейки длиной 20 как 81 
×

×
3
18

10
12
. А если учесть, что каждому размещению 
тела змейки соответствует 61 возможное местоположение фрукта, оценка количества 
возможных совместных размещений змейки и фрукта вырастает до 10
14
. Аналогично 
можно оценить число вариантов и для меньшей длины тела змейки, от 2 до 19. Суммируя 
все оценки для длин от 2 до 20, получаем величину порядка 10
15
. Количество пикселов 
в компьютерных играх, таких как Atari 2600, намного превышает число клеток на нашей 
доске для змейки, а потому еще меньше подходит для использования поисковой таблицы. 
Это одна из причин, почему для решения связанных с подобными компьютерными играми 
задач с помощью RL подходят DQN, как было показано в переломной статье 2015 года, 
написанной специалистами из DeepMind Владимиром Мнихом и др.


458
Download 30,75 Mb.

Do'stlaringiz bilan baham:
1   ...   371   372   373   374   375   376   377   378   ...   457




Ma'lumotlar bazasi mualliflik huquqi bilan himoyalangan ©hozir.org 2024
ma'muriyatiga murojaat qiling

kiriting | ro'yxatdan o'tish
    Bosh sahifa
юртда тантана
Боғда битган
Бугун юртда
Эшитганлар жилманглар
Эшитмадим деманглар
битган бодомлар
Yangiariq tumani
qitish marakazi
Raqamli texnologiyalar
ilishida muhokamadan
tasdiqqa tavsiya
tavsiya etilgan
iqtisodiyot kafedrasi
steiermarkischen landesregierung
asarlaringizni yuboring
o'zingizning asarlaringizni
Iltimos faqat
faqat o'zingizning
steierm rkischen
landesregierung fachabteilung
rkischen landesregierung
hamshira loyihasi
loyihasi mavsum
faolyatining oqibatlari
asosiy adabiyotlar
fakulteti ahborot
ahborot havfsizligi
havfsizligi kafedrasi
fanidan bo’yicha
fakulteti iqtisodiyot
boshqaruv fakulteti
chiqarishda boshqaruv
ishlab chiqarishda
iqtisodiyot fakultet
multiservis tarmoqlari
fanidan asosiy
Uzbek fanidan
mavzulari potok
asosidagi multiservis
'aliyyil a'ziym
billahil 'aliyyil
illaa billahil
quvvata illaa
falah' deganida
Kompyuter savodxonligi
bo’yicha mustaqil
'alal falah'
Hayya 'alal
'alas soloh
Hayya 'alas
mavsum boyicha


yuklab olish