Я пытаюсь выполнить некоторое распознавание цифр, используя PyTorch.Я реализовал сверточную версию скользящего окна размером 32х32.Что дает мне возможность идентифицировать цифры этого диапазона размеров на картинке.
Но теперь давайте представим, что у меня есть изображение размером 300x300 с цифрой, которая занимает все изображение.Я никогда не смогу идентифицировать это ...
Я видел людей, которые говорили, что изображение нужно изменить и изменить его размер.Это означает, что мне нужно создать различные версии моего исходного изображения в различных масштабах, а затем наполнить свою сеть этими «новыми» изображениями.
Кто-нибудь знает, как я могу это сделать?
Вот часть моего кода, если он может помочь ..
# loading dataset
size=200
height=200
width= 300
transformer_svhn_test = transforms.Compose([
transforms.Grayscale(3),
transforms.Resize((height, width)),
transforms.CenterCrop((size, size)),
transforms.ToTensor(),
transforms.Normalize([.5,.5,.5], [.5,.5,.5])
])
SVHN_test = SVHN_(train=False, transform=transformer_svhn_test)
SVHN_test_loader = DataLoader(SVHN_test, batch_size=batch_size, shuffle=False, num_workers=3)
#loading network
model = Network()
model.to(device)
model.load_state_dict(torch.load("digit_classifier_gray_scale_weighted.pth"))
# loading one image and feeding the model with it
image = next(iter(SVHN_test_loader))[0]
image_tensor = image.unsqueeze(0) # creating a single-image batch
image_tensor = image_tensor.to(device)
model.eval()
output = model(image_tensor)