Question

Я пытаюсь реализовать программу Deep RL python, в которой агент должен решить проблему (приблизиться к цели) до истечения срока. Какой лучший способ управлять временем? Это хорошая идея, чтобы передать оставшееся время как вход нейронной сети? Я пытался сделать это (оставшееся время как одна из записей, описывающих состояние окружающей среды), но алгоритм не сходится ...

Любая идея или совет? Большое спасибо !!

Joel Joseph · Answer 1 · 02 апреля 2020

Предполагая, что вы пытаетесь внедрить глубокое обучение, я думаю, что лучше вычесть оставшееся время из награды, например:

Q_target = (reward-time_remaining)+gamma*max(Q(s',a))

Управление временем в Deep Q-learning

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Управление временем в Deep Q-learning

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы