Question

Хорошо, я внедряю модель усиления градиента политики для данной среды. В среде n число (число постоянное и никогда не меняется) действий на шаг действия; Однако, это принесет только одну награду.

for g, logprob in zip(G, self.action_memory):
            loss += -g * logprob

где G - обработанный список вознаграждений, который должен быть рассчитан для потери.

, поскольку я знаю, что было предпринято n действий, то нужно выполнить n действий. рассчитывается для вознаграждения, которое будет рассчитано для потери.

В настоящее время код показывает решение только для одного действия и одного вознаграждения. что я должен сделать для n действий в памяти?

имейте в виду, что для этого я использую pytorch.

как справляться с несколькими действиями, предпринимаемыми на каждом этапе, дающем только одно вознаграждение в обучении для усиления градиента политики

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

как справляться с несколькими действиями, предпринимаемыми на каждом этапе, дающем только одно вознаграждение в обучении для усиления градиента политики

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Похожие темы