Я работаю над проектом, который тренирует модель ML, чтобы предсказать местоположение Уолдо в «Где есть Уолли»? изображение с использованием AWS Sagemaker с базовым алгоритмом обнаружения объекта - Single Shot Detection, но я думаю, что использование реального изображения головоломки с размерами, такими как 2000 x 2000, в качестве обучающих данных невозможно, и что SSD автоматически изменит размер изображения до 300 x 300 что сделало бы Уолдо бессмысленным размытием. SSD автоматически изменяет размер изображений или будет отображаться на изображении 2000 x 2000? Должен ли я обрезать, изменить размер всех головоломок до 300 x 300 изображений, содержащих Уолдо, или я могу включить сочетание реальных изображений головоломки с размерами 2000+ x 2000+ и 300 x 300 обрезанных изображений?
Я подумываю об увеличении данных путем обрезки этих больших изображений в местах, содержащих Уолли, чтобы я мог иметь 300 х 300 изображений, где Уолли не уменьшен до пятен на странице и фактически виден - это хорошо идея? Я думаю, что SSD работает на образе 2000 x 2000, но FPS сильно уменьшится - это неправильно? Мне кажется, что если я не использую изображение 2000 x 2000 для обучения, на этапе прогнозирования, когда я начинаю кормить изображения модели большими размерами (фактические изображения головоломки), модель не сможет точно прогнозировать местоположения - это это не тот случай?