Я использую «встроенный» алгоритм обнаружения объектов (SSD) AWS SageMaker, и мы обучили его на серии аннотированных изображений 512x512 (image_shape = 512). Мы развернули конечную точку, и при ее использовании для прогнозирования мы получаем смешанные результаты.
Если изображение, которое мы используем для прогнозирования, имеет размер примерно 512x512, мы получаем высокую точность и хорошие результаты. Если изображение значительно больше (например, 8000x10000), мы получаем либо очень неточные результаты, либо никаких результатов. Если я вручную изменю размер этих больших изображений до 512x512 пикселей, функции, которые мы ищем, больше не будут различимы для глаз. Что говорит о том, что если моя конечная точка изменяет размеры изображений, то это объясняет, почему модель испытывает трудности.
Примечание: Несмотря на то, что размер в пикселях большой, мои изображения в основном представляют собой штриховые рисунки на белом фоне. У них очень мало цвета и большие пятна сплошного белого цвета, поэтому они очень хорошо сжимаются. У меня нет ограничения на размер запроса в 6 МБ.
Итак, мои вопросы:
- Означает ли обучение модели на image_shape = 512, что мои прогнозные изображения также должны быть того же размера?
- Существует ли общепринятый метод обнаружения объектов на очень больших изображениях? Я могу предусмотреть, как я могу нарезать изображение на меньшие плитки, а затем подавать каждую плитку в мою модель, но если есть что-то «из коробки», которое сделает это для меня, тогда это сэкономит некоторые усилия.