JavaScript для глубокого обучения 2021 TensorFlow js Ббк

Download 30,75 Mb.

Pdf ko'rish

bet	387/457
Sana	27.03.2022
Hajmi	30,75 Mb.
	#513488

1 ... 383 384 385 386 387 388 389 390 ... 457

Bog'liq
Цэй Ш., Байлесчи С., и др. - JаvaScript для глубокого обучения (Библиотека программиста) - 2021

Часть III • Продвинутые возможности глубокого обучения с TensorFlow.js
значения 0,01 и остается на этом уровне. Попробуйте поменять конечное значе
ние эпсилон на большее (например, 0,1) или меньшее (например, 0) и посмотрите,
насколько хорошо при этом обучается агент змейки. Можете пояснить получен
ную разницу с точки зрения роли, которую играет эпсилон?
Резюме
z
z
Как тип машинного обучения, обучение с подкреплением связано с принятием
оптимальных решений. В задачах RL агент обучается так выбирать действия
в среде, чтобы максимизировать метрику
совокупного вознаграждения
.
z
z
В отличие от обучения с учителем в RL нет маркированных обучающих наборов
данных. Вместо этого агенту приходится усваивать, какие действия хороши при
различных обстоятельствах, пробуя их случайным образом.
z
z
Мы изучили два часто используемых типа алгоритмов обучения с подкрепле
нием: методы на основе стратегий (на примере удержания в равновесии шеста
в тележке) и методы на основе Qзначений (на примере игры «Змейка»).
z
z
Стратегия — это алгоритм, с помощью которого агент выбирает действие на
осно ве наблюдений текущего состояния. Стратегия может быть заключена в ней
ронной сети, принимающей в качестве входного сигнала наблюдение состояния
и генерирующей в виде выходного сигнала выбор действия. Подобные нейронные
сети называются
сетями стратегий
. В задаче тележки с шестом мы применяли
градиентный спуск по стратегиям и метод REINFORCE для обновления и об
учения сети стратегий.
z
z
В отличие от методов на основе стратегий при Qобучении для оценки ценно
стей действий при заданном наблюдаемом состоянии применяется модель вида
Q-сеть
. В примере snakedqn мы показали, как в этом качестве может выступать
глубокая сверточная сеть и как обучить ее с помощью MDP, уравнения Беллмана
и
воспроизводимой памяти
.

Download 30,75 Mb.

Do'stlaringiz bilan baham:

1 ... 383 384 385 386 387 388 389 390 ... 457