JavaScript для глубокого обучения 2021 TensorFlow js Ббк



Download 30,75 Mb.
Pdf ko'rish
bet355/457
Sana27.03.2022
Hajmi30,75 Mb.
#513488
1   ...   351   352   353   354   355   356   357   358   ...   457
Bog'liq
Цэй Ш., Байлесчи С., и др. - JаvaScript для глубокого обучения (Библиотека программиста) - 2021


Часть III • Продвинутые возможности глубокого обучения с TensorFlow.js
биржевых маклеров на рынке. Но агент может непосредственно наблюдать лишь 
малую толику этих состояний. В результате наблюдения агента ограничиваются 
поминутной историей цен на акции, возможно, в дополнение к общедоступной ин­
формации, такой как финансовые новости.
Это обсуждение определяет площадку, на которой происходит обучение с под­
креплением. Стоит отметить интересный нюанс этой постановки задачи — двуна­
правленность потока информации между агентом и средой: агент воздействует на 
среду, а среда, в свою очередь, предоставляет агенту вознаграждения и информацию 
о состоянии. Данный нюанс отличает обучение с подкреплением от обучения с учи­
телем, в котором поток информации в основном идет в одну сторону: входной сигнал 
содержит достаточно информации для предсказания алгоритмом выходного сигнала, 
выходной же сигнал никак особенно не воздействует на входной.
Еще одна интересная и уникальная особенность задач RL: они обязательно 
происходят вдоль измерения времени, для многоэтапности/многошаговости взаи­
модействий «агент — среда». Время может измеряться дискретно или непрерывно. 
Например, агенты RL для настольных игр обычно оперируют на непрерывной оси 
времени, поскольку эти игры состоят из отдельных ходов. То же самое относится 
к компьютерным играм. А вот ось времени для агента RL, управляющего механиче­
ской рукой­манипулятором, должна быть непрерывной, хотя он может и выполнять 
действия в дискретные моменты времени. В этой главе мы сосредоточим свое вни­
мание на задачах RL с дискретной осью времени.
Пока приведенных теоретических сведений об RL достаточно. В следующем 
разделе мы приступим к изучению реальных задач и алгоритмов обучения с под­
креплением на практике.
11.2. Сети стратегий и градиентный спуск 
по стратегиям: пример cart-pole
Первая задача RL, которой мы займемся: моделирование механической системы, 
в которой тележка с установленным на ней шестом перемещается по прямолиней­
ной дорожке. Эта задача была впервые описана Эндрю Барто, Ричардом Саттоном 
и Чарльзом Андерсоном в 1983 году
1
и уже стала эталонной в сфере проектирова­
ния систем управления (подобно задаче распознавания цифр MNIST для обучения 
с учителем) благодаря своей простоте и четкости математической и физической 
формулировки наряду с относительной сложностью решения. Здесь задача агента — 
управлять движением тележки путем приложения направленных вправо или влево 
сил, чтобы удержать шест в равновесии настолько долго, насколько это возможно.

Barto A. G., Sutton R. S., Anderson C. W.
Neuronlike Adaptive Elements that Can Solve Difficult 
Learning Control Problems // IEEE Transactions on Systems, Man, and Cybernetics, Sept./
Oct. 1983. Pp. 834–846. http://mng.bz/Q0rG.


Download 30,75 Mb.

Do'stlaringiz bilan baham:
1   ...   351   352   353   354   355   356   357   358   ...   457




Ma'lumotlar bazasi mualliflik huquqi bilan himoyalangan ©hozir.org 2024
ma'muriyatiga murojaat qiling

kiriting | ro'yxatdan o'tish
    Bosh sahifa
юртда тантана
Боғда битган
Бугун юртда
Эшитганлар жилманглар
Эшитмадим деманглар
битган бодомлар
Yangiariq tumani
qitish marakazi
Raqamli texnologiyalar
ilishida muhokamadan
tasdiqqa tavsiya
tavsiya etilgan
iqtisodiyot kafedrasi
steiermarkischen landesregierung
asarlaringizni yuboring
o'zingizning asarlaringizni
Iltimos faqat
faqat o'zingizning
steierm rkischen
landesregierung fachabteilung
rkischen landesregierung
hamshira loyihasi
loyihasi mavsum
faolyatining oqibatlari
asosiy adabiyotlar
fakulteti ahborot
ahborot havfsizligi
havfsizligi kafedrasi
fanidan bo’yicha
fakulteti iqtisodiyot
boshqaruv fakulteti
chiqarishda boshqaruv
ishlab chiqarishda
iqtisodiyot fakultet
multiservis tarmoqlari
fanidan asosiy
Uzbek fanidan
mavzulari potok
asosidagi multiservis
'aliyyil a'ziym
billahil 'aliyyil
illaa billahil
quvvata illaa
falah' deganida
Kompyuter savodxonligi
bo’yicha mustaqil
'alal falah'
Hayya 'alal
'alas soloh
Hayya 'alas
mavsum boyicha


yuklab olish