Обучающиеся агенты
Выше были описаны программы агентов, в которых применяются различные методы выбора действий. Но до сих пор еще не были приведены сведения о том, как создаются программы агентов. В своей знаменитой ранней статье Тьюринг проанализировал идею о том, как фактически должно осуществляться программирование предложенных им интеллектуальных машин вручную. Он оценил объем работы, который для этого потребуется, и пришел к такому выводу: “Желательно было бы иметь какой-то более продуктивный метод”. Предложенный им метод заключался в том, что необходимо создавать обучающиеся машины, а затем проводить их обучение. Теперь этот метод стал доминирующим методом создания наиболее современных систем во многих областях искусственного интеллекта. Как отмечалось выше, обучение имеет еще одно преимущество: оно позволяет агенту функционировать в первоначально неизвестных ему вариантах среды и становиться более компетентным по сравнению с тем, что могли бы позволить только его начальные знания. В данном разделе кратко представлены основные сведения об обучающихся агентах. Существующие возможности и методы обучения агентов конкретных типов рассматриваются почти в каждой главе данной книги, а в части VI более подробно описываются сами алгоритмы обучения.
Рис. 1.6. Агент, основанный на модели и на полезности. В нем модель мира используется наряду с функцией полезности. которая измеряет предпочтения агента применительно к состояниям мира. Затем агент выбирает действие, которое ведет к наилучшей ожидаемой полезности. Для вычисления ожидаемой полезности выполняется усреднение по всем возможным результирующим состояниям с учетом коэффициента, определяющего вероятность каждого результата
Как показано на рис. 1.7, структура обучающегося агента может подразделяться на четыре концептуальных компонента. Наиболее важное различие наблюдается между 'JSk обучающим компонентом, который отвечает за внесение усовершенствований, и 'JSk производительным компонентом, который обеспечивает выбор внешних действий. Производительным компонентом является то, что до сих пор в данной книге рассматривалось в качестве всего агента: он получает воспринимаемую информацию и принимает решение о выполнении действий. Обучающий компонент использует информацию обратной связи от критика с оценкой того, как действует агент, и определяет, каким образом должен быть модифицирован производительный компонент для того, чтобы он успешнее действовал в будущем.
Проект обучающего компонента во многом зависит от проекта производительного компонента. Осуществляя попытку спроектировать агента, который обучается определенным способностям, необходимо прежде всего стремиться найти ответ на вопрос: “Какого рода производительный компонент потребуется моему агенту после того, как он будет обучен тому, как выполнять свои функции?”, а не на вопрос: “Как приступить к решению задачи обучения его выполнению этих функций?” После того как спроектирован сам агент, можно приступать к конструированию обучающих механизмов, позволяющих усовершенствовать любую часть этого агента.
Рис. 1.7. Общая модель обучающихся агентов
Do'stlaringiz bilan baham: |