Двухслойная нейронная сеть в PyTorch не сходится - PullRequest
0 голосов
/ 10 ноября 2018

Задача

Я пытаюсь реализовать двухслойную нейронную сеть, используя различные методы (TensorFlow, PyTorch и с нуля), а затем сравнивать их производительность на основе набора данных MNIST.

Я не уверен, какие ошибки я допустил, но точность в PyTorch составляет всего около 10%, что в основном случайное предположение. Я думаю, что, вероятно, вес не обновляется вообще.

Обратите внимание, что я намеренно использую набор данных, предоставленный TensorFlow, для обеспечения согласованности данных, которые я использую, с помощью 3 различных методов для точного сравнения.

from tensorflow.examples.tutorials.mnist import input_data
import torch

class Net(torch.nn.Module):
    def __init__(self):
      super(Net, self).__init__()
      self.fc1 =  torch.nn.Linear(784, 100)
      self.fc2 =  torch.nn.Linear(100, 10)

    def forward(self, x):
      # x -> (batch_size, 784)
      x = torch.relu(x)
      # x -> (batch_size, 10)
      x = torch.softmax(x, dim=1)
      return x

net = Net()
net.zero_grad()
Loss = torch.nn.CrossEntropyLoss()
optimizer =  torch.optim.SGD(net.parameters(), lr=0.01)

for epoch in range(1000):  # loop over the dataset multiple times

    batch_xs, batch_ys = mnist_m.train.next_batch(100)
    # convert to appropriate settins
    # note the input to the linear layer should be (n_sample, n_features)
    batch_xs = torch.tensor(batch_xs, requires_grad=True)
    # batch_ys -> (batch_size,)
    batch_ys = torch.tensor(batch_ys, dtype=torch.int64)

    # forward
    # output -> (batch_size, 10)
    output = net(batch_xs)
    # result -> (batch_size,)
    result = torch.argmax(output, dim=1)
    loss = Loss(output, batch_ys)

    # backward
    optimizer.zero_grad()
    loss.backward()
    optimizer.step()

1 Ответ

0 голосов
/ 10 ноября 2018

Проблема в том, что вы не применяете свои полностью подключенные слои fc1 и fc2.

Ваш forward() в настоящее время выглядит так:

def forward(self, x):
    # x -> (batch_size, 784)
    x = torch.relu(x)
    # x -> (batch_size, 10)
    x = torch.softmax(x, dim=1)
    return x

Так что если вы измените его на:

def forward(self, x):
    # x -> (batch_size, 784)
    x = self.fc1(x)             # added layer fc1
    x = torch.relu(x)  

    # x -> (batch_size, 10)
    x = self.fc2(x)             # added layer fc2
    x = torch.softmax(x, dim=1)
    return x

Это должно работать.

Относительно ответа Уманга Гуптаса: На мой взгляд, вызов zero_grad() перед вызовом backward(), как это сделал мистер Робот, - это нормально. Это не должно быть проблемой.


Edit:

Итак, я сделал короткий тест - я установил итерации от 1000 до 10000, чтобы увидеть более широкую картину, если она действительно уменьшается. (Конечно, я также загрузил данные в mnist_m, поскольку они не были включены в опубликованный вами код)

Я добавил условие печати в код:

if epoch % 1000 == 0:
    print('Epoch', epoch, '- Loss:', round(loss.item(), 3))

Что выводит потери каждые 1000 итераций:

Epoch 0 - Loss: 2.305
Epoch 1000 - Loss: 2.263
Epoch 2000 - Loss: 2.187
Epoch 3000 - Loss: 2.024
Epoch 4000 - Loss: 1.819
Epoch 5000 - Loss: 1.699
Epoch 6000 - Loss: 1.699
Epoch 7000 - Loss: 1.656
Epoch 8000 - Loss: 1.675
Epoch 9000 - Loss: 1.659

Протестировано с версией PyTorch 0.4.1

Итак, вы можете видеть, что с измененным forward() сеть теперь учится, остальной код я оставил нетронутым.

Удачи дальше!

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...