Если бы я должен был тренировать модель Mask R-CNN для обнаружения различных типов транспортных средств на дороге и имел ограниченный набор данных (50 изображений), но каждое изображение содержало 50 транспортных средств, этого было бы достаточно для обучения Mask R- CNN? Был бы алгоритм более точным, если бы у меня был большой набор данных (1000 изображений), где каждое изображение содержало около 2 или 3 машин?
Другими словами, что важнее при обучении маски R-CNN модель, общее количество обнаруживаемых экземпляров в наборе данных или общее количество обучающих изображений?