JavaScript для глубокого обучения 2021 TensorFlow js Ббк



Download 30,75 Mb.
Pdf ko'rish
bet358/457
Sana27.03.2022
Hajmi30,75 Mb.
#513488
1   ...   354   355   356   357   358   359   360   361   ...   457
Bog'liq
Цэй Ш., Байлесчи С., и др. - JаvaScript для глубокого обучения (Библиотека программиста) - 2021

Таблица 11.1.
Задача удержания равновесия шеста в тележке в канонической постановке RL
Абстрактное 
понятие RL
Воплощение в задаче удержания равновесия шеста в тележке
Среда
Тележка с шестом, которая перемещается по прямолинейной дорожке
Действие
(Дискретное.) Бинарный выбор на каждом ходе между направленной 
влево и направленной вправо силой. Величина силы фиксирована


Глава 11. Основы глубокого обучения с подкреплением
435
Абстрактное 
понятие RL
Воплощение в задаче удержания равновесия шеста в тележке
Вознаграждение
(Частое и исключительно положительное.) На каждом ходе эпизода 
игры агент получает фиксированное вознаграждение (1). Эпизод 
завершается, когда тележка ударяется о стену с одной из сторон 
дорожки или когда шест слишком сильно отклоняется от вертикального 
направления
Наблюдение
(Полное состояние, непрерывное.) На каждом ходе агент обладает 
доступом к полному состоянию системы «тележка — шест», включая 
местоположение тележки (x), ее скорость (x’), помимо угла наклона 
шеста (
θ
) и угловой скорости шеста (
θ
')
11.2.2. Сети стратегий
Мы сформулировали задачу и можем теперь приступить к ее решению. В прошлом 
специалисты по теории управления придумывали разнообразные хитроумные реше­
ния этой задачи, основанные на механике системы
1
. Но мы будем решать ее 
не
так. 
В контексте книги подобный подход был бы подобен написанию эвристических пра­
вил анализа границ и углов изображений MNIST для классификации цифр. Вместо 
этого мы проигнорируем физику системы, наш агент будет обучаться методом проб 
и ошибок в полном соответствии с духом остальной части книги: вместо того чтобы 
жестко «зашивать» в код алгоритм или вручную проектировать признаки на основе 
знаний человека, мы спроектируем алгоритм, с помощью которого модель сможет 
обучаться самостоятельно.
Как сделать так, чтобы агент мог выбирать действие (приложить силу вправо или 
влево) на каждом ходе? При доступных агенту наблюдениях и решении, которое он 
должен принимать на каждом ходе, можно переформулировать задачу в виде просто­
го задания отображать входные данные в выходные, аналогичного уже встречавшим­
ся нам в обучении с учителем. Естественным решением будет нейронная сеть для 
выбора действия на основе наблюдения. Эта идея и лежит в основе так называемых 
сетей стратегий
(policy networks).
Подобная нейронная сеть принимает на входе вектор наблюдений длиной 4 
(
x

x'

θ
и 
θ
') и выдает на выходе число, которое можно истолковать как выбор 
«право — лево». Архитектура этой сети аналогична бинарному классификатору 
для обнаружения фишинговых сайтов в главе 3. Говоря абстрактным языком, на 
каждом шаге мы на основе информации о среде выбираем с помощью сети действие. 
Благодаря отыгрышу нескольких партий сеть собирает информацию для оценки 
принимаемых решений. Далее нам понадобится способ измерить качество этих ре­
шений, чтобы подогнать весовые коэффициенты сети. Тогда она в будущем сможет 
принимать решения, более похожие на «хорошие» и менее похожие на «плохие».

Если вам интересны традиционные, без использования RL, решения задачи балансировки 
шеста на тележке и сложная математика вас не пугает, можете прочитать общедоступный 
курс по теории управления MIT Расса Тидрейка: http://mng.bz/j5lp.


436
Download 30,75 Mb.

Do'stlaringiz bilan baham:
1   ...   354   355   356   357   358   359   360   361   ...   457




Ma'lumotlar bazasi mualliflik huquqi bilan himoyalangan ©hozir.org 2024
ma'muriyatiga murojaat qiling

kiriting | ro'yxatdan o'tish
    Bosh sahifa
юртда тантана
Боғда битган
Бугун юртда
Эшитганлар жилманглар
Эшитмадим деманглар
битган бодомлар
Yangiariq tumani
qitish marakazi
Raqamli texnologiyalar
ilishida muhokamadan
tasdiqqa tavsiya
tavsiya etilgan
iqtisodiyot kafedrasi
steiermarkischen landesregierung
asarlaringizni yuboring
o'zingizning asarlaringizni
Iltimos faqat
faqat o'zingizning
steierm rkischen
landesregierung fachabteilung
rkischen landesregierung
hamshira loyihasi
loyihasi mavsum
faolyatining oqibatlari
asosiy adabiyotlar
fakulteti ahborot
ahborot havfsizligi
havfsizligi kafedrasi
fanidan bo’yicha
fakulteti iqtisodiyot
boshqaruv fakulteti
chiqarishda boshqaruv
ishlab chiqarishda
iqtisodiyot fakultet
multiservis tarmoqlari
fanidan asosiy
Uzbek fanidan
mavzulari potok
asosidagi multiservis
'aliyyil a'ziym
billahil 'aliyyil
illaa billahil
quvvata illaa
falah' deganida
Kompyuter savodxonligi
bo’yicha mustaqil
'alal falah'
Hayya 'alal
'alas soloh
Hayya 'alas
mavsum boyicha


yuklab olish