В типичном алгоритме градиента политики крайне важно выбирать случайные действия на основе их вероятностей; однако, учитывая мою среду, мне нужно выбрать более одного действия, поэтому я буду выбирать более одного раза из action_probs с torch.distributions.Categorical типом данных.
, но чтобы сократить время выполнения, мне нужно устранить эту специфику c элемент, который был выбран из группы образцов действия.
Но я понятия не имею, как это сделать.
action_values = self.network(states)
action_probabilities = F.softmax(action_values)
action_probs = torch.distributions.Categorical(action_probabilities)
action = action_probs.sample()
log_probs = action_probs.log_prob(action)
self.action_memory.append(log_probs)
строки кода, о которых я говорю:
action = action_probs.sample()
для каждого образца, взятого из это мне нужно удалить, чтобы сократить время выполнения