Разница между глубоким q обучением (dqn) и нейронной q-итерацией - PullRequest
1 голос
/ 25 апреля 2019

В чем отличие между глубоким q обучением (dqn) от «управления на уровне человека через обучение с глубоким подкреплением» и нейронной q-итерацией из «Итерация Q с нейронным соответствием - первый опыт применения эффективного метода обучения нейронному подкреплению данных»?Ссылки ниже, соответственно.https://www.nature.com/articles/nature14236.pdf http://ml.informatik.uni -freiburg.de / прежний / _media / публикации / rieecml05.pdf

Насколько я понимаю, они делают то же самое, за исключением того, что dqn обновляетцелевая сеть каждые C шагов.

1 Ответ

1 голос
/ 25 апреля 2019

Помимо существования целевой сети в DQN, Neural Fitted Q Итерация использует только доступные исторические наблюдения и не проводит никаких исследований.Другими словами, нет необходимости иметь окружение, и существует просто цикл по шагам поезда:

D = historical data
for e in range(epochs):
  b = get_batch from D
  train_step(b)

, тогда как в DQN есть два цикла:

D = []
for e in range(max_episode):
  done = False
  s = env.reset()
  while (!done)
   a = policy.get_action(s)
   s',r, done = env.step(a)
   D.append(s,a,r,s')
   if D.size > min_replay_mem:
    b = get_batch
    train_step(b)

В train_step оба получают значение target, а затем используют евклидову функцию потерь.Чтобы получить значение target, DQN использует целевую сеть, хотя установленная итерация Q использует текущую политику.

На самом деле, итерация Neural Fitted Q рассматривается как алгоритм пакетного RL, который предполагает отсутствие доступной среды.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...