Глава 11. Основы глубокого обучения с подкреплением
445
дов, во время чего алгоритм REINFORCE запоминает вознаграждение, действие
и возвращаемую сетью стратегий оценку на каждом шаге. Перед обновлением сети
стратегий алгоритм REINFORCE различает полученные от сети хорошие и плохие
оценки, путем дисконтирования и нормализации, и на основе полученных резуль
татов направляет весовые коэффициенты сети в стороны улучшения оценок в бу
дущем. Процесс повторяется несколько раз, вплоть до конца обучения (например,
достижения агентом заданного порогового значения качества работы).
Отвлечемся на минуту от всех технических подробностей и взглянем на общую
картину воплощенного в этом примере обучения с подкреплением. Подход на
основе RL явно превосходит методы, не связанные с машинным обучением, на
пример классическую теорию управления, своей универсальностью и экономией
человеческих усилий. Для сложных систем или систем, характеристики которых
неизвестны, RL может оказаться единственным работоспособным подходом. А если
характеристики системы меняются с течением времени, можно не выводить новые
математические решения с нуля, а просто заново запустить алгоритм RL и позволить
агенту приспосабливаться к новой ситуации.
Недостаток подхода RL, до сих пор остающийся нерешенной проблемой в сфере
исследований обучения с подкреплением, состоит в том, что в среде необходимо вы
полнять множество повторяющихся проб. В случае примера с шестом и тележкой
достижение целевого уровня навыков агента требует около 400 эпизодов игры. В не
которых традиционных, не RLподходах таких проб вообще не нужно. Достаточно
реализовать алгоритм на основе теории управления и агент сможет удерживать шест
в равновесии с первого же эпизода. Для задач аля «шест — тележка» стремление RL
к повторению проб не большая проблема в силу простоты, быстроты и малого коли
чества ресурсов, необходимых для компьютерного моделирования подобной среды.
Однако в приближенных к реальности задачах, например беспилотных автомобилях
и механических рукахманипуляторах, эта проблема RL встает весьма остро. Никто
не может позволить себе сотни или тысячи раз разбивать автомобиль или ломать
руку робота для обучения агента, не говоря уже об огромном количестве времени,
которое займет выполнение алгоритма обучения с подкреплением для подобных
реальных задач.
На этом наш первый пример RL завершается. У задачи тележки с шестом есть
особенности, не свойственные другим задачам RL. Например, многие среды RL
не вознаграждают положительно агент на каждом шаге. В некоторых случаях ему
приходить принимать десятки, если не больше, решений для получения положи
тельного вознаграждения. В промежутке между положительными вознаграждения
ми он может вообще не получать никакого вознаграждения либо получать только
отрицательное (хотя, кажется, таковы многие начинания в реальном мире, напри
мер учеба, тренировки и инвестиции!). Кроме того, у системы тележка — шест от
сутствует «память» в том смысле, что динамика системы не зависит от предыдущих
действий агента. Большинство задач RL более сложны и действия агента меняют
определенные аспекты среды. В следующем разделе мы рассмотрим задачу RL,
отличающуюся как разреженными положительными вознаграждениями, так и из
менениями среды в результате действий. Для решения этой задачи мы познакомим
вас еще с одним популярным полезным алгоритмом RL —
глубоким
Q-обучением
(deep Qlearning).
Do'stlaringiz bilan baham: |