Необходимо ли заканчивать эпизоды, когда в обучении подкреплению происходит столкновение - PullRequest
0 голосов
/ 19 апреля 2019

Я реализовал q обучающий алгоритм, в котором агент пытается путешествовать как можно дальше.Я использую мгновенные награды и награду за финальный эпизод.Когда агент сталкивается, я даю высокую награду за столкновение в минус, и я не останавливаю эпизод.Можно ли так делать, или эпизод должен быть закончен после столкновения агента?

1 Ответ

0 голосов
/ 19 апреля 2019

В моем случае я определил минимальный порог вознаграждения, если он падает ниже, чем я заканчиваю эпизод.

  • Случай 1: Завершить эпизод с недействительным действием Если вы закончите игру до того, как оштрафуете недействительный ход, сеть не сможет понять, что ход был недействительным.
  • Случай 2: Завершить эпизод после N недопустимого действия Это дает ему возможность предпринять несколько неверных действий до окончания эпизода. Это похоже на игру: у вас есть N жизней, чтобы пройти уровень, или вы проигрываете игру
  • Случай 3: Не завершать игру вообще после недействительных действий Это может привести к тому, что агент теряется в среде, иногда делая только недопустимые действия, вам нужно хорошее условие завершения, чтобы остановить эпизод

Надеюсь, это поможет

...