Хорошо, я внедряю модель усиления градиента политики для данной среды. В среде n число (число постоянное и никогда не меняется) действий на шаг действия; Однако, это принесет только одну награду.
for g, logprob in zip(G, self.action_memory):
loss += -g * logprob
где G - обработанный список вознаграждений, который должен быть рассчитан для потери.
, поскольку я знаю, что было предпринято n действий, то нужно выполнить n действий. рассчитывается для вознаграждения, которое будет рассчитано для потери.
В настоящее время код показывает решение только для одного действия и одного вознаграждения. что я должен сделать для n действий в памяти?
имейте в виду, что для этого я использую pytorch.