Согласно победителю 1-го места в соревновании VisDrone, они используют многоуровневое обучение.Их способ многомасштабного обучения заключается в разделении исходных изображений на участки (размер: 512, 640, 768, 896, 1024) с помощью DOTA devkit, почти 180 000 подизображений для обучения.Как выполнить это многомасштабное обучение и тестирование в задаче обнаружения объектов?Особенно как разбить изображение на разные патчи?