Глава 11. Основы глубокого обучения с подкреплением
431
Вознаграждения, играющие ключевую роль в задачах RL, также бывают разные.
Вопервых, в некоторых задачах RL вознаграждение бывает только положительным.
Например, как мы вскоре увидим, агент RL, задача которого состоит в удержании
шеста в равновесии в движущейся тележке, получает лишь положительное возна
граждение. Он получает небольшое положительное вознаграждение за каждый
временной шаг, на котором шест продолжает стоять. Однако во многих задачах
RL встречается сочетание положительного и отрицательного вознаграждения.
Отрицательное вознаграждение можно считать своего рода штрафом или наказани
ем. Например, агент, обучающийся забрасывать мяч в баскетбольное кольцо, должен
получать положительное вознаграждение за заброшенные мячи и отрицательное —
за промахи.
Вознаграждения могут различаться и частотой. Некоторые задачи RL харак
теризуются непрерывным потоком вознаграждений. В их числе вышеупомянутая
задача удержания шеста в равновесии, например: пока шест стоит, агент получает
(положительное) вознаграждение на каждом временном шаге. С другой стороны,
рассмотрим агент RL для игры в шахматы: он получает вознаграждение только
в конце, когда становится известен исход игры (победа, проигрыш или ничья).
Существуют и промежуточные между этими двумя крайними случаями задачи
RL. Например, наш робот для сборки мусора может не получать никакого возна
граждения на всех шагах между двумя успешными сбросами мусора в контейнер,
то есть когда он просто перемещается из точки А в точку Б. Аналогично агент
RL для игры Pong Atari не получает вознаграждения на каждом шаге (кадре)
компьютерной игры, а вознаграждается положительно каждые несколько шагов,
когда управляемая им бита ударяет по мячу и тот отскакивает к противнику. Среди
примеров задач RL этой главы встречаются задачи как с высокой, так и с низкой
частотой вознаграждения.
Наблюдение — еще один важный фактор в задачах обучения с подкреплением,
своего рода окно, через которое агент может посматривать на состояние среды, фор
мируя фундамент (помимо вознаграждений) для принятия решений. Как и действия,
наблюдения могут быть дискретными (как в настольной или карточной игре) или
непрерывными (как в физической среде). У вас может возникнуть вопрос: почему
в нашей формулировке задач RL наблюдение и вознаграждение — две отдельные
сущности, хотя и то и другое можно считать обратной связью от среды агенту. Дело
в том, что это принципиально упрощает задачу и повышает ее понятность. Хотя воз
награждение можно считать разновидностью наблюдения, именно оно в конечном
счете главное для агента. Наблюдение может включать как относящуюся, так и не
относящуюся к делу информацию, которую агент должен уметь фильтровать и ис
пользовать с умом.
В одних задачах RL агент через наблюдение получает доступ ко всему состоянию
среды, а в других — лишь к частям состояния. Примеры задач первого типа вклю
чают настольные игры, например шахматы и го. Хороший пример задач второго
типа — карточные игры, такие как покер, в которых карты на руках противника
неизвестны, а также торговля акциями. Цены на акции определяет множество
факторов, например, внутренняя деятельность компаний и образ мыслей других
432
Do'stlaringiz bilan baham: |