Например, если я пытался обнаружить (и сегментировать) людей на изображении «Где Уолдо» (изображение, содержащее сотни людей на каждом изображении) и пометить каждого человека в зависимости от цвета рубашки, которую он носит Достаточно ли будет небольшого набора данных (всего 10-100 изображений для обучения и проверки), потому что на каждом изображении имеется так много экземпляров этих "объектов" (если я использую предварительно обученные веса из COCO)? Важно ли иметь большой набор данных (> 1000 изображений) для этих случаев (при условии, что вы используете какой-либо алгоритм обнаружения-сегментации, такой как маска R-CNN)?
Еще одна перспектива, с которой вы можете взглянуть на вопрос:
Что важнее: количество изображений, на которых вы тренируете свой алгоритм сегментации, или количество экземпляров обнаруживаемых объектов на протяжении всего набора данных?