Question

К вашему сведению: я пытаюсь применить механизм обучения армированию к задачам классификации.Я знаю, что это бесполезная вещь, потому что глубокое обучение может превзойти в задачах.во всяком случае, в исследовательских целях я делаю.

Я награждаю агента, если он правильно положительный 1 или не отрицательный -1, и вычисляю потери FUNC с помощью функцииrealted_action (предсказанный класс) и вознаграждения

.все еще нечего решить ... взглянул на некоторые ответы в SO, но все еще в беде

ошибка;Элемент 0 тензоров не требует grad и не имеет grad_fn

, если мои навыки английского заставляют вас чувствовать себя неловко, извините, спасибо в продвинутом

 # creating model
class Net(nn.Module):
    def __init__(self):
        super(Net, self).__init__()

        self.pipe = nn.Sequential(nn.Linear(9, 120),
                                 nn.ReLU(),
                                 nn.Linear(120, 64),
                                 nn.ReLU(),
                                 nn.Linear(64,2),
                                 nn.Softmax()
                                 )

    def forward(self, x):
        return self.pipe(x)


def env_step(action, label, size):
    total_reward = []

    for i in range(size):
        reward = 0

        if action[i] == label[i]:
            total_reward.append(reward+1)
            continue
        else:
            total_reward.append(reward-1)
            continue

    return total_reward




if __name__=='__main__':
    epoch_size = 100
    net = Net()
    criterion = nn.MSELoss()
    optimizer = optim.Adam(params=net.parameters(), lr=0.01)

    total_loss = deque(maxlen = 50)

    for epoch in range(epoch_size):
        batch_index = 0
        for i in range(13):
            # batch sample
            batch_xs = torch.FloatTensor(train_state[batch_index: batch_index+50])   # make tensor
            batch_ys = torch.from_numpy(train_label[batch_index: batch_index+50]).type('torch.LongTensor')  # make tensor

            # action_prob; e.g classification prob
            actions_prob = net(batch_xs)                                
            #print(actions_prob)
            action = torch.argmax(actions_prob, dim=1).unsqueeze(1)    
            #print(action)
            reward = np.array(env_step(action, batch_ys, 50))  
            #print(reward)

            reward = torch.from_numpy(reward).unsqueeze(1).type('torch.FloatTensor')
            #print(reward)
            action = action.type('torch.FloatTensor')

            optimizer.zero_grad()
            loss = criterion(action, reward)    
            loss.backward()
            optimizer.step()


            batch_index += 50

Chris Holland · Answer 1 · 24 февраля 2019

action производится функцией argmax, которая не дифференцируется.Вместо этого вы хотите принять потерю между наградой и ответственной вероятностью за предпринятые действия.

Часто "потеря", выбранная для политики в обучении переосмыслению, является так называемой балльная функция : link

Это произведение логарифма вероятной вероятности для действия a, умноженного на полученное вознаграждение.

элемент 0 тензоров не требует grad и не имеет grad_fn

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

элемент 0 тензоров не требует grad и не имеет grad_fn

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы