У меня есть тензор в форме ([5, 1, 3, 126, 126]), который представляет видео (5 кадров каждый 126x126 rgb). Мне нужно переслать его в
self.resnet = nn.Sequential(
nn.Conv3d(5,5,1),
nn.UpsamplingBilinear2d(size=None, scale_factor=0.5)
)
, но я получаю
RuntimeError: Given groups=1, weight of size [5, 5, 1, 1, 1], expected input[5, 1, 3, 126, 126] to have 5 channels, but got 1 channels instead
Я думаю, что я, вероятно, неправильно понял, как работает conv3d, но я не могу понять, почему ожидаемые размеры настолько отличаются от тех, что были у моего 5d-тензора на тот момент