Таблица 11.1.
Задача удержания равновесия шеста в тележке в канонической постановке RL
Абстрактное
понятие RL
Воплощение в задаче удержания равновесия шеста в тележке
Среда
Тележка с шестом, которая перемещается по прямолинейной дорожке
Действие
(Дискретное.) Бинарный выбор на каждом ходе между направленной
влево и направленной вправо силой. Величина силы фиксирована
Глава 11. Основы глубокого обучения с подкреплением
435
Абстрактное
понятие RL
Воплощение в задаче удержания равновесия шеста в тележке
Вознаграждение
(Частое и исключительно положительное.) На каждом ходе эпизода
игры агент получает фиксированное вознаграждение (1). Эпизод
завершается, когда тележка ударяется о стену с одной из сторон
дорожки или когда шест слишком сильно отклоняется от вертикального
направления
Наблюдение
(Полное состояние, непрерывное.) На каждом ходе агент обладает
доступом к полному состоянию системы «тележка — шест», включая
местоположение тележки (x), ее скорость (x’), помимо угла наклона
шеста (
θ
) и угловой скорости шеста (
θ
')
11.2.2. Сети стратегий
Мы сформулировали задачу и можем теперь приступить к ее решению. В прошлом
специалисты по теории управления придумывали разнообразные хитроумные реше
ния этой задачи, основанные на механике системы
1
. Но мы будем решать ее
не
так.
В контексте книги подобный подход был бы подобен написанию эвристических пра
вил анализа границ и углов изображений MNIST для классификации цифр. Вместо
этого мы проигнорируем физику системы, наш агент будет обучаться методом проб
и ошибок в полном соответствии с духом остальной части книги: вместо того чтобы
жестко «зашивать» в код алгоритм или вручную проектировать признаки на основе
знаний человека, мы спроектируем алгоритм, с помощью которого модель сможет
обучаться самостоятельно.
Как сделать так, чтобы агент мог выбирать действие (приложить силу вправо или
влево) на каждом ходе? При доступных агенту наблюдениях и решении, которое он
должен принимать на каждом ходе, можно переформулировать задачу в виде просто
го задания отображать входные данные в выходные, аналогичного уже встречавшим
ся нам в обучении с учителем. Естественным решением будет нейронная сеть для
выбора действия на основе наблюдения. Эта идея и лежит в основе так называемых
сетей стратегий
(policy networks).
Подобная нейронная сеть принимает на входе вектор наблюдений длиной 4
(
x
,
x'
,
θ
и
θ
') и выдает на выходе число, которое можно истолковать как выбор
«право — лево». Архитектура этой сети аналогична бинарному классификатору
для обнаружения фишинговых сайтов в главе 3. Говоря абстрактным языком, на
каждом шаге мы на основе информации о среде выбираем с помощью сети действие.
Благодаря отыгрышу нескольких партий сеть собирает информацию для оценки
принимаемых решений. Далее нам понадобится способ измерить качество этих ре
шений, чтобы подогнать весовые коэффициенты сети. Тогда она в будущем сможет
принимать решения, более похожие на «хорошие» и менее похожие на «плохие».
1
Если вам интересны традиционные, без использования RL, решения задачи балансировки
шеста на тележке и сложная математика вас не пугает, можете прочитать общедоступный
курс по теории управления MIT Расса Тидрейка: http://mng.bz/j5lp.
436
Do'stlaringiz bilan baham: |