Я пытаюсь реализовать программу Deep RL python, в которой агент должен решить проблему (приблизиться к цели) до истечения срока. Какой лучший способ управлять временем? Это хорошая идея, чтобы передать оставшееся время как вход нейронной сети? Я пытался сделать это (оставшееся время как одна из записей, описывающих состояние окружающей среды), но алгоритм не сходится ...
Любая идея или совет? Большое спасибо !!