JavaScript для глубокого обучения 2021 TensorFlow js Ббк



Download 30,75 Mb.
Pdf ko'rish
bet366/457
Sana27.03.2022
Hajmi30,75 Mb.
#513488
1   ...   362   363   364   365   366   367   368   369   ...   457
Bog'liq
Цэй Ш., Байлесчи С., и др. - JаvaScript для глубокого обучения (Библиотека программиста) - 2021


Глава 11. Основы глубокого обучения с подкреплением
445
дов, во время чего алгоритм REINFORCE запоминает вознаграждение, действие 
и возвращаемую сетью стратегий оценку на каждом шаге. Перед обновлением сети 
стратегий алгоритм REINFORCE различает полученные от сети хорошие и плохие 
оценки, путем дисконтирования и нормализации, и на основе полученных резуль­
татов направляет весовые коэффициенты сети в стороны улучшения оценок в бу­
дущем. Процесс повторяется несколько раз, вплоть до конца обучения (например, 
достижения агентом заданного порогового значения качества работы).
Отвлечемся на минуту от всех технических подробностей и взглянем на общую 
картину воплощенного в этом примере обучения с подкреплением. Подход на 
основе RL явно превосходит методы, не связанные с машинным обучением, на­
пример классическую теорию управления, своей универсальностью и экономией 
человеческих усилий. Для сложных систем или систем, характеристики которых 
неизвестны, RL может оказаться единственным работоспособным подходом. А если 
характеристики системы меняются с течением времени, можно не выводить новые 
математические решения с нуля, а просто заново запустить алгоритм RL и позволить 
агенту приспосабливаться к новой ситуации.
Недостаток подхода RL, до сих пор остающийся нерешенной проблемой в сфере 
исследований обучения с подкреплением, состоит в том, что в среде необходимо вы­
полнять множество повторяющихся проб. В случае примера с шестом и тележкой 
достижение целевого уровня навыков агента требует около 400 эпизодов игры. В не­
которых традиционных, не RL­подходах таких проб вообще не нужно. Достаточно 
реализовать алгоритм на основе теории управления и агент сможет удерживать шест 
в равновесии с первого же эпизода. Для задач а­ля «шест — тележка» стремление RL 
к повторению проб не большая проблема в силу простоты, быстроты и малого коли­
чества ресурсов, необходимых для компьютерного моделирования подобной среды. 
Однако в приближенных к реальности задачах, например беспилотных автомобилях 
и механических руках­манипуляторах, эта проблема RL встает весьма остро. Никто 
не может позволить себе сотни или тысячи раз разбивать автомобиль или ломать 
руку робота для обучения агента, не говоря уже об огромном количестве времени, 
которое займет выполнение алгоритма обучения с подкреплением для подобных 
реальных задач.
На этом наш первый пример RL завершается. У задачи тележки с шестом есть 
особенности, не свойственные другим задачам RL. Например, многие среды RL 
не вознаграждают положительно агент на каждом шаге. В некоторых случаях ему 
приходить принимать десятки, если не больше, решений для получения положи­
тельного вознаграждения. В промежутке между положительными вознаграждения­
ми он может вообще не получать никакого вознаграждения либо получать только 
отрицательное (хотя, кажется, таковы многие начинания в реальном мире, напри­
мер учеба, тренировки и инвестиции!). Кроме того, у системы тележка — шест от­
сутствует «память» в том смысле, что динамика системы не зависит от предыдущих 
действий агента. Большинство задач RL более сложны и действия агента меняют 
определенные аспекты среды. В следующем разделе мы рассмотрим задачу RL, 
отличающуюся как разреженными положительными вознаграждениями, так и из­
менениями среды в результате действий. Для решения этой задачи мы познакомим 
вас еще с одним популярным полезным алгоритмом RL — 
глубоким
Q-обучением
(deep Q­learning).



Download 30,75 Mb.

Do'stlaringiz bilan baham:
1   ...   362   363   364   365   366   367   368   369   ...   457




Ma'lumotlar bazasi mualliflik huquqi bilan himoyalangan ©hozir.org 2024
ma'muriyatiga murojaat qiling

kiriting | ro'yxatdan o'tish
    Bosh sahifa
юртда тантана
Боғда битган
Бугун юртда
Эшитганлар жилманглар
Эшитмадим деманглар
битган бодомлар
Yangiariq tumani
qitish marakazi
Raqamli texnologiyalar
ilishida muhokamadan
tasdiqqa tavsiya
tavsiya etilgan
iqtisodiyot kafedrasi
steiermarkischen landesregierung
asarlaringizni yuboring
o'zingizning asarlaringizni
Iltimos faqat
faqat o'zingizning
steierm rkischen
landesregierung fachabteilung
rkischen landesregierung
hamshira loyihasi
loyihasi mavsum
faolyatining oqibatlari
asosiy adabiyotlar
fakulteti ahborot
ahborot havfsizligi
havfsizligi kafedrasi
fanidan bo’yicha
fakulteti iqtisodiyot
boshqaruv fakulteti
chiqarishda boshqaruv
ishlab chiqarishda
iqtisodiyot fakultet
multiservis tarmoqlari
fanidan asosiy
Uzbek fanidan
mavzulari potok
asosidagi multiservis
'aliyyil a'ziym
billahil 'aliyyil
illaa billahil
quvvata illaa
falah' deganida
Kompyuter savodxonligi
bo’yicha mustaqil
'alal falah'
Hayya 'alal
'alas soloh
Hayya 'alas
mavsum boyicha


yuklab olish