Управление временем в Deep Q-learning - PullRequest
0 голосов
/ 01 апреля 2020

Я пытаюсь реализовать программу Deep RL python, в которой агент должен решить проблему (приблизиться к цели) до истечения срока. Какой лучший способ управлять временем? Это хорошая идея, чтобы передать оставшееся время как вход нейронной сети? Я пытался сделать это (оставшееся время как одна из записей, описывающих состояние окружающей среды), но алгоритм не сходится ...

Любая идея или совет? Большое спасибо !!

1 Ответ

0 голосов
/ 02 апреля 2020

Предполагая, что вы пытаетесь внедрить глубокое обучение, я думаю, что лучше вычесть оставшееся время из награды, например:

Q_target = (reward-time_remaining)+gamma*max(Q(s',a))
...