Могу ли я складывать кадры в (ширину, высоту, каналы * количество кадров) и по-прежнему использовать conv2d, примененный к различным слайсам из этого тома, чтобы получить вывод conv3d?