JavaScript для глубокого обучения 2021 TensorFlow js Ббк



Download 30,75 Mb.
Pdf ko'rish
bet354/457
Sana27.03.2022
Hajmi30,75 Mb.
#513488
1   ...   350   351   352   353   354   355   356   357   ...   457
Bog'liq
Цэй Ш., Байлесчи С., и др. - JаvaScript для глубокого обучения (Библиотека программиста) - 2021


Глава 11. Основы глубокого обучения с подкреплением
431
Вознаграждения, играющие ключевую роль в задачах RL, также бывают разные. 
Во­первых, в некоторых задачах RL вознаграждение бывает только положительным. 
Например, как мы вскоре увидим, агент RL, задача которого состоит в удержании 
шеста в равновесии в движущейся тележке, получает лишь положительное возна­
граждение. Он получает небольшое положительное вознаграждение за каждый 
временной шаг, на котором шест продолжает стоять. Однако во многих задачах 
RL встречается сочетание положительного и отрицательного вознаграждения. 
Отрицательное вознаграждение можно считать своего рода штрафом или наказани­
ем. Например, агент, обучающийся забрасывать мяч в баскетбольное кольцо, должен 
получать положительное вознаграждение за заброшенные мячи и отрицательное — 
за промахи.
Вознаграждения могут различаться и частотой. Некоторые задачи RL харак­
теризуются непрерывным потоком вознаграждений. В их числе вышеупомянутая 
задача удержания шеста в равновесии, например: пока шест стоит, агент получает 
(положительное) вознаграждение на каждом временном шаге. С другой стороны, 
рассмотрим агент RL для игры в шахматы: он получает вознаграждение только 
в конце, когда становится известен исход игры (победа, проигрыш или ничья). 
Существуют и промежуточные между этими двумя крайними случаями задачи 
RL. Например, наш робот для сборки мусора может не получать никакого возна­
граждения на всех шагах между двумя успешными сбросами мусора в контейнер, 
то есть когда он просто перемещается из точки А в точку Б. Аналогично агент 
RL для игры Pong Atari не получает вознаграждения на каждом шаге (кадре) 
компьютерной игры, а вознаграждается положительно каждые несколько шагов, 
когда управляемая им бита ударяет по мячу и тот отскакивает к противнику. Среди 
примеров задач RL этой главы встречаются задачи как с высокой, так и с низкой 
частотой вознаграждения.
Наблюдение — еще один важный фактор в задачах обучения с подкреплением, 
своего рода окно, через которое агент может посматривать на состояние среды, фор­
мируя фундамент (помимо вознаграждений) для принятия решений. Как и действия, 
наблюдения могут быть дискретными (как в настольной или карточной игре) или 
непрерывными (как в физической среде). У вас может возникнуть вопрос: почему 
в нашей формулировке задач RL наблюдение и вознаграждение — две отдельные 
сущности, хотя и то и другое можно считать обратной связью от среды агенту. Дело 
в том, что это принципиально упрощает задачу и повышает ее понятность. Хотя воз­
награждение можно считать разновидностью наблюдения, именно оно в конечном 
счете главное для агента. Наблюдение может включать как относящуюся, так и не 
относящуюся к делу информацию, которую агент должен уметь фильтровать и ис­
пользовать с умом.
В одних задачах RL агент через наблюдение получает доступ ко всему состоянию 
среды, а в других — лишь к частям состояния. Примеры задач первого типа вклю­
чают настольные игры, например шахматы и го. Хороший пример задач второго 
типа — карточные игры, такие как покер, в которых карты на руках противника 
неизвестны, а также торговля акциями. Цены на акции определяет множество 
факторов, например, внутренняя деятельность компаний и образ мыслей других 


432
Download 30,75 Mb.

Do'stlaringiz bilan baham:
1   ...   350   351   352   353   354   355   356   357   ...   457




Ma'lumotlar bazasi mualliflik huquqi bilan himoyalangan ©hozir.org 2024
ma'muriyatiga murojaat qiling

kiriting | ro'yxatdan o'tish
    Bosh sahifa
юртда тантана
Боғда битган
Бугун юртда
Эшитганлар жилманглар
Эшитмадим деманглар
битган бодомлар
Yangiariq tumani
qitish marakazi
Raqamli texnologiyalar
ilishida muhokamadan
tasdiqqa tavsiya
tavsiya etilgan
iqtisodiyot kafedrasi
steiermarkischen landesregierung
asarlaringizni yuboring
o'zingizning asarlaringizni
Iltimos faqat
faqat o'zingizning
steierm rkischen
landesregierung fachabteilung
rkischen landesregierung
hamshira loyihasi
loyihasi mavsum
faolyatining oqibatlari
asosiy adabiyotlar
fakulteti ahborot
ahborot havfsizligi
havfsizligi kafedrasi
fanidan bo’yicha
fakulteti iqtisodiyot
boshqaruv fakulteti
chiqarishda boshqaruv
ishlab chiqarishda
iqtisodiyot fakultet
multiservis tarmoqlari
fanidan asosiy
Uzbek fanidan
mavzulari potok
asosidagi multiservis
'aliyyil a'ziym
billahil 'aliyyil
illaa billahil
quvvata illaa
falah' deganida
Kompyuter savodxonligi
bo’yicha mustaqil
'alal falah'
Hayya 'alal
'alas soloh
Hayya 'alas
mavsum boyicha


yuklab olish