Это довольно много вопросов, я постараюсь ответить на все из них.Модель обнаружения изменяет размеры входных изображений перед подачей их в сеть с помощью некоторого метода изменения размера, например, билинейного.Конечно, было бы лучше, если бы входное изображение было равно или больше, чем входной размер сети, а не меньше.Практическое правило заключается в том, что действительно более высокое разрешение означает лучшую точность, но оно сильно зависит от настройки и задачи.Если вы пытаетесь обнаружить небольшой объект, и скажем, например, что исходное разрешение составляет 1920x1080.Затем после изменения размера изображения маленький объект будет еще меньше (по пикселям) и может оказаться слишком маленьким для обнаружения.Поэтому, действительно, было бы лучше либо разделить изображение на более мелкие изображения (возможно, с некоторым перекрытием, чтобы избежать неправильного обнаружения из-за разделения объекта) и применить обнаружение к каждому, либо использовать модель с более высоким входным разрешением.Имейте в виду, что, хотя первое возможно с вашей текущей моделью, вам потребуется обучить новую модель, возможно, с некоторыми архитектурными изменениями (например, добавление слоев SSD и изменение привязок, в зависимости от масштабов, которые вы хотите обнаружить) для последнего.Что касается соотношения сторон, вам в основном нужно быть последовательным.Неважно, если вы не сохраняете исходное соотношение сторон, но если вы этого не делаете - делайте это и в обучении, и в оценке / тестировании / развертывании.