Потеря проверки не перемещается с MLP в регрессии - PullRequest
5 голосов
/ 10 мая 2019

Учитывая входные функции как таковые, просто необработанные числа:

tensor([0.2153, 0.2190, 0.0685, 0.2127, 0.2145, 0.1260, 0.1480, 0.1483, 0.1489,
        0.1400, 0.1906, 0.1876, 0.1900, 0.1925, 0.0149, 0.1857, 0.1871, 0.2715,
        0.1887, 0.1804, 0.1656, 0.1665, 0.1137, 0.1668, 0.1168, 0.0278, 0.1170,
        0.1189, 0.1163, 0.2337, 0.2319, 0.2315, 0.2325, 0.0519, 0.0594, 0.0603,
        0.0586, 0.0067, 0.0624, 0.2691, 0.0617, 0.2790, 0.2805, 0.2848, 0.2454,
        0.1268, 0.2483, 0.2454, 0.2475], device='cuda:0')

А ожидаемый вывод - это вывод одного действительного числа, например,

tensor(-34.8500, device='cuda:0')

Полный код на https://www.kaggle.com/alvations/pytorch-mlp-regression

Я пытался создать простую двухслойную сеть с:

class MLP(nn.Module):
    def __init__(self, input_size, output_size, hidden_size):
        super(MLP, self).__init__()
        self.linear = nn.Linear(input_size, hidden_size)
        self.classifier = nn.Linear(hidden_size, output_size)

    def forward(self, inputs, hidden=None, dropout=0.5):
        inputs = F.dropout(inputs, dropout) # Drop-in.
        # First Layer.
        output = F.relu(self.linear(inputs))

        # Matrix manipulation magic.
        batch_size, sequence_len, hidden_size = output.shape
        # Technically, linear layer takes a 2-D matrix as input, so more manipulation...
        output = output.contiguous().view(batch_size * sequence_len, hidden_size)
        # Apply dropout.
        output = F.dropout(output, dropout)

        # Put it through the classifier
        # And reshape it to [batch_size x sequence_len x vocab_size]
        output = self.classifier(output).view(batch_size, sequence_len, -1)

        return output

И обучение как таковое:

# Training routine.
def train(num_epochs, dataloader, valid_dataset, model, criterion, optimizer):
    losses = []
    valid_losses = []
    learning_rates = []
    plt.ion()
    x_valid, y_valid = valid_dataset
    for _e in range(num_epochs):
        for batch in tqdm(dataloader):
            # Zero gradient.
            optimizer.zero_grad()
            #print(batch)
            this_x = torch.tensor(batch['x'].view(len(batch['x']), 1, -1)).to(device)
            this_y = torch.tensor(batch['y'].view(len(batch['y']), 1, 1)).to(device)

            # Feed forward. 
            output = model(this_x)

            prediction, _ = torch.max(output, dim=1)
            loss = criterion(prediction, this_y.view(len(batch['y']), -1))
            loss.backward()
            optimizer.step()
            losses.append(torch.sqrt(loss.float()).data)

            with torch.no_grad():
                # Zero gradient.
                optimizer.zero_grad()
                output = model(x_valid.view(len(x_valid), 1, -1))
                prediction, _ = torch.max(output, dim=1)
                loss = criterion(prediction, y_valid.view(len(y_valid), -1))
                valid_losses.append(torch.sqrt(loss.float()).data)

            clear_output(wait=True)
            plt.plot(losses, label='Train')
            plt.plot(valid_losses, label='Valid')
            plt.legend()
            plt.pause(0.05)

Настройка нескольких гиперпараметров, похоже, что модель плохо работает, потери при проверке не движутся вообще, например,

hyperparams = Hyperparams(input_size=train_dataset.x.shape[1], 
                          output_size=1, 
                          hidden_size=150, 
                          loss_func=nn.MSELoss,
                          learning_rate=1e-8, 
                          optimizer=optim.Adam, 
                          batch_size=500)

И это кривая потерь:

enter image description here

Есть идеи, что не так с сетью?

Тренирую ли я модель регрессии с неправильной потерей? Или я просто еще не нашел нужные гиперпараметры?

Или я неверно проверяю модель?

1 Ответ

2 голосов
/ 10 мая 2019

Из предоставленного вами кода сложно сказать, почему потери при проверке постоянны, но я вижу несколько проблем в вашем коде.

  1. Почему вы проверяете каждую тренировочную мини-серию? Вместо этого вы должны проверить свою модель после того, как пройдете обучение в течение одной полной эпохи (итерируя по полному набору данных один раз). Итак, скелет должен быть таким:
for _e in range(num_epochs):
    for batch in tqdm(train_dataloader):
        # training code

    with torch.no_grad():
        for batch in tqdm(valid_dataloader):
            # validation code

    # plot your loss values

Кроме того, вы можете строить сюжеты после каждой эпохи, а не после каждого мини-пакетного обучения.

  1. Вы проверяли, обновляются ли параметры модели после optimizer.step() во время тренировки? Сколько примеров валидации у вас есть? Почему вы не используете мини-пакетные вычисления во время проверки?

  2. Почему вы делаете: optimizer.zero_grad() во время проверки? Это не имеет смысла, потому что во время проверки вы не будете делать ничего, что связано с оптимизацией.

  3. Вы должны использовать model.eval() во время проверки, чтобы отключить выпадения. См. Документацию PyTorch, чтобы узнать о .train() и .eval() методах.

  4. Скорость обучения установлена ​​на 1e-8, не слишком ли она мала? Почему вы не используете скорость обучения по умолчанию для Адама (1e-3)?

Следующее требует некоторых рассуждений.

  1. Почему вы используете такой большой размер партии? Какой у вас размер набора тренировочных данных?

  2. Вы можете непосредственно построить график MSELoss вместо получения квадратного корня.

Мое предложение: использовать некоторые существующие ресурсы для MLP в PyTorch. Не делайте этого с нуля, если у вас нет достаточных знаний на данный момент. Это заставит тебя сильно страдать.

...