Часть III • Продвинутые возможности глубокого обучения с TensorFlow.js
биржевых маклеров на рынке. Но агент может непосредственно наблюдать лишь
малую толику этих состояний. В результате наблюдения агента ограничиваются
поминутной историей цен на акции, возможно, в дополнение к общедоступной ин
формации, такой как финансовые новости.
Это обсуждение определяет площадку, на которой происходит обучение с под
креплением. Стоит отметить интересный нюанс этой постановки задачи — двуна
правленность потока информации между агентом и средой: агент воздействует на
среду, а среда, в свою очередь, предоставляет агенту вознаграждения и информацию
о состоянии. Данный нюанс отличает обучение с подкреплением от обучения с учи
телем, в котором поток информации в основном идет в одну сторону: входной сигнал
содержит достаточно информации для предсказания алгоритмом выходного сигнала,
выходной же сигнал никак особенно не воздействует на входной.
Еще одна интересная и уникальная особенность задач RL: они обязательно
происходят вдоль измерения времени, для многоэтапности/многошаговости взаи
модействий «агент — среда». Время может измеряться дискретно или непрерывно.
Например, агенты RL для настольных игр обычно оперируют на непрерывной оси
времени, поскольку эти игры состоят из отдельных ходов. То же самое относится
к компьютерным играм. А вот ось времени для агента RL, управляющего механиче
ской рукойманипулятором, должна быть непрерывной, хотя он может и выполнять
действия в дискретные моменты времени. В этой главе мы сосредоточим свое вни
мание на задачах RL с дискретной осью времени.
Пока приведенных теоретических сведений об RL достаточно. В следующем
разделе мы приступим к изучению реальных задач и алгоритмов обучения с под
креплением на практике.
11.2. Сети стратегий и градиентный спуск
по стратегиям: пример cart-pole
Первая задача RL, которой мы займемся: моделирование механической системы,
в которой тележка с установленным на ней шестом перемещается по прямолиней
ной дорожке. Эта задача была впервые описана Эндрю Барто, Ричардом Саттоном
и Чарльзом Андерсоном в 1983 году
1
и уже стала эталонной в сфере проектирова
ния систем управления (подобно задаче распознавания цифр MNIST для обучения
с учителем) благодаря своей простоте и четкости математической и физической
формулировки наряду с относительной сложностью решения. Здесь задача агента —
управлять движением тележки путем приложения направленных вправо или влево
сил, чтобы удержать шест в равновесии настолько долго, насколько это возможно.
1
Barto A. G., Sutton R. S., Anderson C. W.
Neuronlike Adaptive Elements that Can Solve Difficult
Learning Control Problems // IEEE Transactions on Systems, Man, and Cybernetics, Sept./
Oct. 1983. Pp. 834–846. http://mng.bz/Q0rG.
Do'stlaringiz bilan baham: |