405
политикой
. Петля обратной связи между обучаемым и распределением данных (ко-
торое теперь зависит от действий обучаемого) – центральный вопрос в литературе по
обучению с подкреплением и бандитам.
Для обучения с подкреплением требуется выбрать компромисс между
исследова-
нием
(exploration) и
использованием
(exploitation). Под использованием понимается
выполнение действий, вытекающих из текущей наилучшей версии обученной поли-
тики, – действий, которые, как мы знаем, повлекут за собой большое вознаграждение.
А исследование – это выполнение действий, направленных специально на получе-
ние дополнительных обучающих данных. Если мы знаем, что при данном контексте
x
действие
a
принесет вознаграждение 1, то это еще не значит, что это максимально
возможное вознаграждение. Мы можем использовать текущую политику и продол-
жать выполнять действие
a
, чтобы более-менее гарантированно получить вознаграж-
дение 1. Но можем и заняться исследованием, попробовав действие
a
′
. Мы не знаем,
что произойдет, если выполнить действие
a
′
. Мы надеемся получить вознаграждение
2, но рискуем остаться с вознаграждением 0. Но в любом случае приобретем какие-то
знания.
Есть разные способы реализации исследования: можно время от времени пред-
принимать случайные действия в расчете охватить все пространство возможных
действий, а можно положить в основу модель, которая вычисляет действие в зависи-
мости от ожидаемого вознаграждения и заложенной в модель степени неопределен-
ности этого вознаграждения.
Что предпочесть – исследование или использование, зависит от многих факторов.
Один из самых важных – интересующий нас временной масштаб. Если у агента име-
ется ограниченное время для накопления вознаграждения, то мы предпочли бы ис-
пользование. Если же времени достаточно, то стоит начать с исследования, чтобы
планировать будущие действия более эффективно, опираясь на полученные знания.
Обучив достаточно хорошую политику, можно переходить к использованию.
В обучении с учителем не нужно выбирать между исследованием и использовани-
ем, потому что сигнал от учителя всегда говорит, какой выход правилен для данного
входа. Нет нужды пробовать различные выходы, чтобы понять, удастся ли улучшить
текущий оптимальный выход модели, – мы заведомо знаем, что лучшим выходом яв-
ляется метка.
Помимо компромисса между исследованием и использованием, в контексте обуче-
ния с подкреплением возникает еще одна трудность: оценка и сравнение различных
политик. Обучение с подкреплением предполагает взаимодействие между обучае-
мым и окружением. Эта петля обратной связи означает, что нельзя просто оценить
качество обучаемой системы, пользуясь фиксированным тестовым набором вход-
ных значений. Сама политика определяет, какие входы будут предъявлены. В работе
Dudik et al. (2011) представлены методы оценки контекстуальных бандитов.
Do'stlaringiz bilan baham: |