Усиление обучения: как определить вознаграждение за живое время? - PullRequest
0 голосов
/ 18 октября 2019

В такой среде, как бесконечная игра-бегун, где цель состоит в том, чтобы просто остаться в живых как можно дольше, как бы вы использовали положительные и / или отрицательные награды?

Если бы агент получал последовательный положительный результатнаграда скажет +1 каждый раз, когда он не умрет, а затем одно большое отрицательное вознаграждение за действие, которое заставляет его умереть?

Разве это не займет много времени, чтобы агент связал это отрицательное вознаграждение? с реальным действием, которое вызвало отрицательное вознаграждение? Например, если агент прыгает, а затем, через несколько временных шагов, падает с платформы или приземляется в яму с шипами, не нужно ли ему многократно выполнять одно и то же действие в одном и том же сценарии несколько раз для получения этого отрицательного вознаграждения до поступить обратно и быть правильно связанным с причинным действием?

...