Определение глубоких сетей
Чтобы придать конкретики нашему определению глубокого обучения, определим четыре основные архитектуры глубоких сетей:
сети, предобученные без учителя;
сверточные нейронные сети;
рекуррентные нейронные сети;
рекурсивные нейронные сети.
области нейронных сетей ведутся активные исследования, но в этой книге мы ограничимся только этими четырьмя архитектурами, которые выкристалли-зовались за прошедшие 20 лет. Продолжим начатый в главе 1 краткий экскурс
историю многослойных сетей прямого распространения.
Глубокое обучение с подкреплением
Обучение с подкреплением определено в книге Саттона2 следующим образом:
Чтобы определить обучение с подкреплением, нужно охарактеризовать не методы обуче-ния, а задачу обучения.
Далее говорится, что любой метод, пригодный для решения этой задачи, можно рас-сматривать как метод обучения с подкреплением. В обучении с подкреплением мы не сообщаем обучаемому агенту, какие действия он должен предпринять, а позво-ляем ему экспериментально выяснить, какие действия приносят наибольшее возна-граждение.
самом начале обучения у агента нет обученной модели окружающей среды, а си-нонимом вознаграждения, к которому стремится агент, является функция полезности. Обучающая система предлагает агенту входные данные и вознаграждает его, если результат цикла (или раунда) имитационной модели (или игры) оказался положитель-ным. Часто бывает, что от действий агента зависит не только непосредственное воз-награждение, но и вознаграждение в будущем. Механизм проб и ошибок и отложен-ного вознаграждения – ключевые особенности обучения с подкреплением.
Глубокое обучение с подкреплением – это вариант обучения с подкреплением, при котором нейронная сеть используется в качестве универсального аппроксиматора функции. Недостаток этого подхода – в том, что на поведение нейронной сети невоз-можно наложить никаких ограничений, так что доказательство сходимости больше не проходит. Но, несмотря на это, нейронные сети в роли аппроксиматоров функций дают на удивление хорошие результаты.
2013 году группа DeepMind опубликовала текст доклада на семинаре по глубоко-му обучению NIPS 2013 Deep Learning Workshop, посвященного обучению машины
https://www.ozon.ru/context/detail/id/7107485/.
Определение глубокого обучения 85
играм ATARI с помощью глубокого Q-обучения3. Авторы использовали стандартный алгоритм (Q-обучение с аппроксимацией функции). В качестве аппроксиматора ис-пользовалась сверточная нейронная сеть. Был продемонстрирован агент, способный играть в игры для компьютера Atari 2600, обученный на экранных пикселях.
Агент получает вознаграждение, если его действия привели к положительному ре-зультату в игре. В некоторые игры алгоритм научился играть лучше человека.
процессе работы над этой книгой популярность глубокого обучения с подкрепле-нием возросла, и мы надеемся включить эту тему в следующее издание. А пока адре-суем вас к примеру в приложении B.
Do'stlaringiz bilan baham: |