Неожиданный результат операции свертки - PullRequest
0 голосов
/ 17 декабря 2018

Вот код, который я написал для выполнения одной свертки и вывода формы.

Использование формулы из http://cs231n.github.io/convolutional-networks/ для вычисления размера вывода:

Вы можете убедитьВы сами понимаете, что правильная формула для расчета количества «подгонки» нейронов задается как (W-F + 2P) / S + 1

Формула для вычисления выходного размера была реализована ниже как

def output_size(w , f , stride , padding) : 
        return (((w - f) + (2 * padding)) / stride) + 1

Проблема в том, что output_size вычисляет размер 2690,5, который отличается от результата свертки 1350:

%reset -f

import torch
import torch.nn.functional as F
import numpy as np
from PIL import Image
import torch.nn as nn
import torchvision
import torchvision.transforms as transforms
from pylab import plt
plt.style.use('seaborn')
%matplotlib inline

width = 60
height = 30
kernel_size_param = 5
stride_param = 2
padding_param = 2

img = Image.new('RGB', (width, height), color = 'red')

in_channels = 3
out_channels = 3

class ConvNet(nn.Module):
    def __init__(self):
        super(ConvNet, self).__init__()
        self.layer1 = nn.Sequential(
            nn.Conv2d(in_channels, 
                      out_channels, 
                      kernel_size=kernel_size_param, 
                      stride=stride_param, 
                      padding=padding_param))

    def forward(self, x):
        out = self.layer1(x)

        return out

# w : input volume size
# f : receptive field size of the Conv Layer neurons
# output_size computes spatial size of output volume - spatial dimensions are (width, height)
def output_size(w , f , stride , padding) : 
    return (((w - f) + (2 * padding)) / stride) + 1

w = width * height * in_channels
f = kernel_size_param * kernel_size_param

print('output size :' , output_size(w , f , stride_param , padding_param))

model = ConvNet()

criterion = nn.CrossEntropyLoss()
optimizer = torch.optim.Adam(model.parameters(), lr=.001)

img_a = np.array(img)
img_pt = torch.tensor(img_a).float()
result = model(img_pt.view(3, width , height).unsqueeze_(0))
an = result.view(30 , 15 , out_channels).data.numpy()

# print(result.shape)
# print(an.shape)

# print(np.amin(an.flatten('F')))

print(30 * 15 * out_channels)

Правильно ли я реализовал output_size?Как изменить эту модель, чтобы результат Conv2d имел ту же форму, что и результат output_size?

1 Ответ

0 голосов
/ 17 декабря 2018

Проблема в том, что ваше входное изображение не является квадратом, поэтому вы должны применить формулу к width и heigth входного изображения.Кроме того, вы не должны использовать nb_channels в формуле, потому что мы явно определяем, сколько каналов мы хотим в выводе.Затем вы используете f=kernel_size, а не f=kernel_size*kernel_size, как описано в формуле.

w = width 
h = height
f = kernel_size_param
output_w =  int(output_size(w , f , stride_param , padding_param))
output_h =  int(output_size(h , f , stride_param , padding_param))
print("Output_size", [out_channels, output_w, output_h]) #--> [1, 3, 30 ,15]

И затем выходной размер:

print("Output size", result.shape)  #--> [1, 3, 30 ,15]  

Источник формулы: http://cs231n.github.io/convolutional-networks/

...