JavaScript для глубокого обучения 2021 TensorFlow js Ббк



Download 30,75 Mb.
Pdf ko'rish
bet379/457
Sana27.03.2022
Hajmi30,75 Mb.
#513488
1   ...   375   376   377   378   379   380   381   382   ...   457
Bog'liq
Цэй Ш., Байлесчи С., и др. - JаvaScript для глубокого обучения (Библиотека программиста) - 2021


Часть III • Продвинутые возможности глубокого обучения с TensorFlow.js
Извлечение предсказанных Q-значений
Хотя мы пытаемся решить задачу RL с помощью нового подхода, но все равно 
хотели бы свести наш алгоритм к обучению с учителем, чтобы воспользоваться 
привычным методом обратного распространения ошибки для обновления весовых 
коэффициентов DQN. Для подобной постановки задачи нужны три вещи.
z
z
Предсказанные Q­значения.
z
z
«Истинные» Q­значения. Обратите внимание, что слово «истинные» взято 
в кавычки, поскольку на самом деле не существует способа получить эталонные 
Q­значения, так что эти значения — просто наилучшие из доступных нам на кон­
кретном этапе алгоритма обучения оценок 
Q
(
s,
a
). Поэтому мы будем называть 
их вместо этого целевыми Q­значениями.
z
z
Функция потерь, возвращающая по предсказанному и целевому Q­значениям 
число, количественно выражающее расхождение между ними.
В этом подразделе мы обсудим извлечение предсказанных Q­значений из воспро­
изводимой памяти. В последующих двух подразделах мы поговорим, соответствен­
но, о том, как получить целевые Q­значения и функцию потерь. А когда у нас будут 
все три эти составляющие, задача RL змейки превратится, по существу, в простую 
задачу обратного распространения ошибки.
На рис. 11.14 показано, как предсказанные Q­значения извлекаются из воспро­
изводимой памяти на одном из шагов обучения DQN. Эту схему следует изучать 
совместно с реализующим ее кодом в листинге 11.7, чтобы проще было в них разо­
браться.
В частности, мы выбираем случайным образом 
batchSize
(
N = 128
по умолча­
нию) записей из воспроизводимой памяти. Как уже описывалось ранее, каждая 
запись состоит из пяти элементов. Для получения предсказанных Q­значений нам 
нужны только первые два. Эти первые элементы, состоящие из 
N
наблюдений со­
стояния, преобразуются вместе в тензор. Динамический DQN обрабатывает этот 
тензор батча наблюдений и возвращает предсказанные Q­значения (
qs
на схеме 
и в коде). Однако 
qs
включает Q­значения не только фактически выбранных дей­
ствий, но и невыбранных. В нашем обучении мы хотим игнорировать Q­значения 
для невыбранных действий, поскольку не существует способа узнать их целевые 
Q­значения. Именно здесь нам пригодится второй элемент воспроизводимой 
памяти.
Этот второй элемент содержит фактически выбранные действия в тензорном 
представлении (
actionTensor
на схеме и в коде). Далее 
actionTensor
используется 
для выбора нужных нам элементов 
qs
. Этот шаг, показанный на рисунке в прямо­
угольнике «Выбор фактических действий», реализуется с помощью трех функций 
TensorFlow.js: 
tf.oneHot()

mul()
и 
sum()
(см. последнюю строку листинга 11.17). 
Его нельзя свести к простым срезам тензора, поскольку различные действия могут 
выбираться на различных ходах игры. Код в листинге 11.7 представляет собой фраг­
мент метода 
SnakeGameAgent.trainOnReplayBatch()
из файла 
snake-dqn/agent.js

в котором опущено несколько мелких нюансов для простоты.


Download 30,75 Mb.

Do'stlaringiz bilan baham:
1   ...   375   376   377   378   379   380   381   382   ...   457




Ma'lumotlar bazasi mualliflik huquqi bilan himoyalangan ©hozir.org 2024
ma'muriyatiga murojaat qiling

kiriting | ro'yxatdan o'tish
    Bosh sahifa
юртда тантана
Боғда битган
Бугун юртда
Эшитганлар жилманглар
Эшитмадим деманглар
битган бодомлар
Yangiariq tumani
qitish marakazi
Raqamli texnologiyalar
ilishida muhokamadan
tasdiqqa tavsiya
tavsiya etilgan
iqtisodiyot kafedrasi
steiermarkischen landesregierung
asarlaringizni yuboring
o'zingizning asarlaringizni
Iltimos faqat
faqat o'zingizning
steierm rkischen
landesregierung fachabteilung
rkischen landesregierung
hamshira loyihasi
loyihasi mavsum
faolyatining oqibatlari
asosiy adabiyotlar
fakulteti ahborot
ahborot havfsizligi
havfsizligi kafedrasi
fanidan bo’yicha
fakulteti iqtisodiyot
boshqaruv fakulteti
chiqarishda boshqaruv
ishlab chiqarishda
iqtisodiyot fakultet
multiservis tarmoqlari
fanidan asosiy
Uzbek fanidan
mavzulari potok
asosidagi multiservis
'aliyyil a'ziym
billahil 'aliyyil
illaa billahil
quvvata illaa
falah' deganida
Kompyuter savodxonligi
bo’yicha mustaqil
'alal falah'
Hayya 'alal
'alas soloh
Hayya 'alas
mavsum boyicha


yuklab olish