Question

В типичном алгоритме градиента политики крайне важно выбирать случайные действия на основе их вероятностей; однако, учитывая мою среду, мне нужно выбрать более одного действия, поэтому я буду выбирать более одного раза из action_probs с torch.distributions.Categorical типом данных.

, но чтобы сократить время выполнения, мне нужно устранить эту специфику c элемент, который был выбран из группы образцов действия.

Но я понятия не имею, как это сделать.


        action_values = self.network(states)
        action_probabilities = F.softmax(action_values)
        action_probs = torch.distributions.Categorical(action_probabilities)

        action = action_probs.sample()
        log_probs = action_probs.log_prob(action)

        self.action_memory.append(log_probs)

строки кода, о которых я говорю:

action = action_probs.sample()

для каждого образца, взятого из это мне нужно удалить, чтобы сократить время выполнения

Обучение усилению градиента политики: Как удалить элемент из образца действия?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Обучение усилению градиента политики: Как удалить элемент из образца действия?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Похожие темы