Вычисление градиента нарушено функцией сигмоида в Pytorch - PullRequest
0 голосов
/ 21 февраля 2020

Эй, я боролся с этой странной проблемой. Вот мой код для Neural Net:

class Net(nn.Module):
    def __init__(self):
        super(Net, self).__init__()
        self.conv_3d_=nn.Sequential(
            nn.Conv3d(1,1,9,1,4),
            nn.LeakyReLU(),
            nn.Conv3d(1,1,9,1,4),
            nn.LeakyReLU(),
            nn.Conv3d(1,1,9,1,4),
            nn.LeakyReLU()  
        )

        self.linear_layers_ = nn.Sequential(

            nn.Linear(batch_size*32*32*32,batch_size*32*32*3),
            nn.LeakyReLU(),
            nn.Linear(batch_size*32*32*3,batch_size*32*32*3),
            nn.Sigmoid()
        )

    def forward(self,x,y,z):
        conv_layer = x + y + z
        conv_layer = self.conv_3d_(conv_layer)
        conv_layer = torch.flatten(conv_layer)
        conv_layer = self.linear_layers_(conv_layer)
        conv_layer = conv_layer.view((batch_size,3,input_sizes,input_sizes))
        return conv_layer

Странная проблема, с которой я сталкиваюсь, заключается в том, что при запуске этого NN выдается ошибка

RuntimeError: one of the variables needed for gradient computation has been modified by an inplace operation: [torch.cuda.FloatTensor [3072]], which is output 0 of SigmoidBackward, is at version 1; expected version 0 instead. Hint: the backtrace further above shows the operation that failed to compute its gradient. The variable in question was changed in there or anywhere later. Good luck!

Трассировка стека показывает, что проблема в строке

conv_layer = self.linear_layers_(conv_layer)

Однако, если я заменю последнюю функцию активации моего FCN с nn.Sigmoid () на nn.LeakyRelu (), NN будет работать правильно.

Может кто-нибудь скажет мне, почему функция активации Sigmoid приводит к сбою моих обратных вычислений?

1 Ответ

1 голос
/ 21 февраля 2020

Я обнаружил проблему с моим кодом. Я углубился в то, что на самом деле означало на месте . Таким образом, если вы проверяете строку

conv_layer = self.linear_layers_(conv_layer)

linear_layers_ , присваивание изменяет значения conv_layer на месте, и в результате значения перезаписываются, и из-за этого градиент вычисления не удаются. Простым решением этой проблемы является использование функции clone ()

т.е.

conv_layer = self.linear_layers_(conv_layer).clone()

Это создает копию вычисления правой руки, и Autograd может сохранять ссылку на график вычислений. ,

...