JavaScript для глубокого обучения 2021 TensorFlow js Ббк



Download 30,75 Mb.
Pdf ko'rish
bet361/457
Sana27.03.2022
Hajmi30,75 Mb.
#513488
1   ...   357   358   359   360   361   362   363   364   ...   457
Bog'liq
Цэй Ш., Байлесчи С., и др. - JаvaScript для глубокого обучения (Библиотека программиста) - 2021


Часть III • Продвинутые возможности глубокого обучения с TensorFlow.js
и анализируя получаемые вознаграждения. Другими словами, он должен «учиться 
плавать, плавая» — ключевая особенность задач RL. Далее мы во всех подробностях 
рассмотрим, как это происходит.
Листинг 11.2.
Определение логитов и действий по выходному сигналу сети стратегий
11.2.3. Обучение сети стратегий: алгоритм REINFORCE
Основной вопрос теперь: как вычислить, какие действия удачные, а какие — нет. 
После ответа на него можно обновить весовые коэффициенты сети стратегий так, 
чтобы повысить вероятность выбора удачных действий в будущем, подобно обучению 
с учителем. На ум сразу приходит возможность оценки удачности действий на основе 
вознаграждений. Но вознаграждения в задаче удержания равновесия шеста на тележке 
отличаются: 1) фиксированным значением (
1
) и 2) получением агентом вознаграждения 
на каждом шаге, вплоть до завершения эпизода. Поэтому нельзя просто воспользоваться 
пошаговым вознаграждением в качестве метрики, иначе все действия будут считать­
ся одинаково удачными. Необходимо учитывать длительность эпизодов.
«Наивный» подход состоит в суммировании всех вознаграждений эпизода и вы­
яснении таким образом его длительности. Но хорошо ли такая сумма позволяет 
оценить действия? Несложно понять, что она здесь не подходит. Причина в ходах 
в конце эпизода. Представьте себе длительный эпизод, когда агент прекрасно ба­
лансирует системой «шест — тележка» почти до самого конца, затем выбирает не­
сколько неудачных вариантов, в результате чего эпизод завершается. При «наивном» 
подходе с суммированием у неудачных действий в конце эпизода и удачных пред­
шествующих действий окажутся одинаково хорошие оценки. Нам же хотелось бы 
присвоить более высокие оценки действиям в начале и середине эпизода и более 
низкие — действиям в конце эпизода.
Это приводит нас к простой, но играющей важную в RL роль идее 
дисконтирова-
ния вознаграждений
(reward discounting): величина для конкретного хода должна 
равняться немедленному вознаграждению плюс ожидаемое в будущем вознагра­


Download 30,75 Mb.

Do'stlaringiz bilan baham:
1   ...   357   358   359   360   361   362   363   364   ...   457




Ma'lumotlar bazasi mualliflik huquqi bilan himoyalangan ©hozir.org 2024
ma'muriyatiga murojaat qiling

kiriting | ro'yxatdan o'tish
    Bosh sahifa
юртда тантана
Боғда битган
Бугун юртда
Эшитганлар жилманглар
Эшитмадим деманглар
битган бодомлар
Yangiariq tumani
qitish marakazi
Raqamli texnologiyalar
ilishida muhokamadan
tasdiqqa tavsiya
tavsiya etilgan
iqtisodiyot kafedrasi
steiermarkischen landesregierung
asarlaringizni yuboring
o'zingizning asarlaringizni
Iltimos faqat
faqat o'zingizning
steierm rkischen
landesregierung fachabteilung
rkischen landesregierung
hamshira loyihasi
loyihasi mavsum
faolyatining oqibatlari
asosiy adabiyotlar
fakulteti ahborot
ahborot havfsizligi
havfsizligi kafedrasi
fanidan bo’yicha
fakulteti iqtisodiyot
boshqaruv fakulteti
chiqarishda boshqaruv
ishlab chiqarishda
iqtisodiyot fakultet
multiservis tarmoqlari
fanidan asosiy
Uzbek fanidan
mavzulari potok
asosidagi multiservis
'aliyyil a'ziym
billahil 'aliyyil
illaa billahil
quvvata illaa
falah' deganida
Kompyuter savodxonligi
bo’yicha mustaqil
'alal falah'
Hayya 'alal
'alas soloh
Hayya 'alas
mavsum boyicha


yuklab olish