JavaScript для глубокого обучения 2021 TensorFlow js Ббк



Download 30,75 Mb.
Pdf ko'rish
bet353/457
Sana27.03.2022
Hajmi30,75 Mb.
#513488
1   ...   349   350   351   352   353   354   355   356   ...   457
Bog'liq
Цэй Ш., Байлесчи С., и др. - JаvaScript для глубокого обучения (Библиотека программиста) - 2021


Часть III • Продвинутые возможности глубокого обучения с TensorFlow.js
z
z
Помимо вознаграждения, агент может получать информацию о состоянии среды 
через другой канал, а именно 
наблюдение
(observation). Видимым агенту может 
быть полное состояние среды или только его часть, возможно искаженная из­за 
низкого качества канала. Наблюдения нашего собирающего мусор робота пред­
ставляют собой потоки изображений и сигналов с камер и различных датчиков 
на его корпусе.
Рис. 1
1.2.
Схематическая иллюстрация простейшей постановки задач обучения с подкреплением. 
На каждом шаге агент выбирает одно из возможных действий, меняющих состояние среды. 
Среда вознаграждает агент в соответствии с текущим состоянием и выбранным действием. 
Агент полностью или частично наблюдает состояние среды и использует полученную 
информацию для принятия решений о дальнейших действиях
Только что описанная постановка задачи несколько абстрактна. Взглянем на 
конкретные примеры задач обучения с подкреплением, чтобы прочувствовать 
спектр охватываемых этой формулировкой возможностей. В процессе этого мы 
также приведем классификацию всех существующих задач RL. Во­первых, рас­
смотрим действия. Пространство, из которого агент выбирает действия, может 
быть дискретным или непрерывным. Например, пространства действий у агентов 
RL, предназначенных для настольных игр, обычно дискретные в силу конечности 
возможных ходов. Однако задача RL управления ходьбой на двух ногах виртуаль­
ного человекоподобного робота
1
требует непрерывного пространства действий, 
поскольку моменты сил в его шарнирах представляют собой непрерывные вели­
чины. Пространства действий в примерах задач, которые мы рассмотрим в этой 
главе, дискретны. Учтите, что в некоторых задачах RL непрерывные пространства 
действий можно превратить в дискретные посредством дискретизации. Напри­
мер, агент для игры StarCraft II компании DeepMind разбивает двумерный экран 
в высоком разрешении на прямоугольники, чтобы определить, куда двигать юниты 
и где начинать атаки
2
.

См. среду Humanoid OpenAI по адресу https://gym.openai.com/envs/Humanoid­v2/.

Vinyals O. et al.
StarCraft II: A New Challenge for Reinforcement Learning // submitted 
16 Aug. 2017. https://arxiv.org/abs/1708.04782.


Download 30,75 Mb.

Do'stlaringiz bilan baham:
1   ...   349   350   351   352   353   354   355   356   ...   457




Ma'lumotlar bazasi mualliflik huquqi bilan himoyalangan ©hozir.org 2024
ma'muriyatiga murojaat qiling

kiriting | ro'yxatdan o'tish
    Bosh sahifa
юртда тантана
Боғда битган
Бугун юртда
Эшитганлар жилманглар
Эшитмадим деманглар
битган бодомлар
Yangiariq tumani
qitish marakazi
Raqamli texnologiyalar
ilishida muhokamadan
tasdiqqa tavsiya
tavsiya etilgan
iqtisodiyot kafedrasi
steiermarkischen landesregierung
asarlaringizni yuboring
o'zingizning asarlaringizni
Iltimos faqat
faqat o'zingizning
steierm rkischen
landesregierung fachabteilung
rkischen landesregierung
hamshira loyihasi
loyihasi mavsum
faolyatining oqibatlari
asosiy adabiyotlar
fakulteti ahborot
ahborot havfsizligi
havfsizligi kafedrasi
fanidan bo’yicha
fakulteti iqtisodiyot
boshqaruv fakulteti
chiqarishda boshqaruv
ishlab chiqarishda
iqtisodiyot fakultet
multiservis tarmoqlari
fanidan asosiy
Uzbek fanidan
mavzulari potok
asosidagi multiservis
'aliyyil a'ziym
billahil 'aliyyil
illaa billahil
quvvata illaa
falah' deganida
Kompyuter savodxonligi
bo’yicha mustaqil
'alal falah'
Hayya 'alal
'alas soloh
Hayya 'alas
mavsum boyicha


yuklab olish