JavaScript для глубокого обучения 2021 TensorFlow js Ббк


Часть III • Продвинутые возможности глубокого обучения с TensorFlow.js Рис. 11.6



Download 30,75 Mb.
Pdf ko'rish
bet364/457
Sana27.03.2022
Hajmi30,75 Mb.
#513488
1   ...   360   361   362   363   364   365   366   367   ...   457
Bog'liq
Цэй Ш., Байлесчи С., и др. - JаvaScript для глубокого обучения (Библиотека программиста) - 2021

442
Часть III • Продвинутые возможности глубокого обучения с TensorFlow.js
Рис. 11.6.
Нормализация дисконтированных вознаграждений для двух эпизодов: длиной 4 (блок A) 
и длины 20 (блок Б). Как видим, максимальная величина у нормализованных дисконтированных 
вознаграждений — в начале эпизода длиной 20. Метод градиентного спуска по стратегиям обновит 
на основе этих величин дисконтированных вознаграждений весовые коэффициенты сети стратегий 
так, что она с меньшей вероятностью выберет в будущем те действия, которые привели к низким 
вознаграждениям в первом случае (длина — 4) и с большей вероятностью — действия, приведшие 
к высоким вознаграждениям в начальной части второго эпизода (длина — 20) (при тех же входных 
состояниях, конечно)
Фактически так и работает алгоритм REINFORCE. Базовая логика обучения при­
мера cart­pole, в основе которого лежит алгоритм REINFORCE, приведена в листин­
ге 11.4. Она представляет собой многократное повторение описанных ниже шагов.
1. Вызов сети стратегий и получение логитов на основе текущих наблюдений агента.
2. Случайная выборка действия на основе логитов.
3. Обновление среды на основе выбранного действия.
4. Запоминание такой информации для дальнейшего обновления весовых коэф­
фициентов (на шаге 7), как: логиты и выбранное действие, а также градиенты 
функции потерь относительно весов сети стратегий. Эти градиенты называются 
градиентами по стратегиям
(policy gradients).
5. Получение вознаграждения от среды и запоминание его на будущее (шаг 7).
6. Повторение шагов 1–5 до тех пор, пока не будет завершено 
numGames
эпизодов.
7. По завершении 
numGames
эпизодов выполнение дисконтирования и нормализации 
вознаграждений и масштабирование градиентов из шага 4 на основе полученных 
результатов. Далее обновление весовых коэффициентов сети стратегий на осно­
ве масштабированных градиентов (именно в этом месте обновляются весовые 
коэффициенты сети стратегий).
8. (Не показано в листинге 11.4.) Повторение шагов 1–7 
numIterations
раз.
Сравните эти шаги с кодом из листинга (фрагмент 
cart-pole/index.js
), чтобы 
проследить соответствия и убедиться, что вы понимаете логику.


Download 30,75 Mb.

Do'stlaringiz bilan baham:
1   ...   360   361   362   363   364   365   366   367   ...   457




Ma'lumotlar bazasi mualliflik huquqi bilan himoyalangan ©hozir.org 2024
ma'muriyatiga murojaat qiling

kiriting | ro'yxatdan o'tish
    Bosh sahifa
юртда тантана
Боғда битган
Бугун юртда
Эшитганлар жилманглар
Эшитмадим деманглар
битган бодомлар
Yangiariq tumani
qitish marakazi
Raqamli texnologiyalar
ilishida muhokamadan
tasdiqqa tavsiya
tavsiya etilgan
iqtisodiyot kafedrasi
steiermarkischen landesregierung
asarlaringizni yuboring
o'zingizning asarlaringizni
Iltimos faqat
faqat o'zingizning
steierm rkischen
landesregierung fachabteilung
rkischen landesregierung
hamshira loyihasi
loyihasi mavsum
faolyatining oqibatlari
asosiy adabiyotlar
fakulteti ahborot
ahborot havfsizligi
havfsizligi kafedrasi
fanidan bo’yicha
fakulteti iqtisodiyot
boshqaruv fakulteti
chiqarishda boshqaruv
ishlab chiqarishda
iqtisodiyot fakultet
multiservis tarmoqlari
fanidan asosiy
Uzbek fanidan
mavzulari potok
asosidagi multiservis
'aliyyil a'ziym
billahil 'aliyyil
illaa billahil
quvvata illaa
falah' deganida
Kompyuter savodxonligi
bo’yicha mustaqil
'alal falah'
Hayya 'alal
'alas soloh
Hayya 'alas
mavsum boyicha


yuklab olish