Будет ли что-то вроде маски R-CNN работать лучше, чем более быстрый R-CNN, или это повышение производительности потребует, чтобы все мои данные были сегментированы на уровне пикселей вместо аннотированных ограничивающими прямоугольниками перед точной настройкой?
Да, Маска R-CNN требует, чтобы ваши данные были сегментированы на уровне пикселей, потому что это модель сегментации, которая на один уровень выше и сложнее, чем модели обнаружения объектов.
Будет ли маска R-CNN превосходить R-CNN быстрее, если обучены на ограничивающих прямоугольниках и нет сегментированных данных?
Нет, Маска R-CNN основан на Ускоренном обнаружении объекта R-CNN с добавленным к нему модулем сегментации. Поэтому, если данные аннотированы с помощью ограничивающих рамок, достаточно Faster R-CNN и нет смысла использовать Mask R-CNN .
Iзнаю, что вы можете сделать вывод ограничительной рамки с помощью маски R-CNN, но можете ли вы обучить модель без сегментации на уровне пикселей?
Да, возможно, вы можете обучить модель таким образом, но производительность не будетхороший. Также нет никакого смысла в этом, поскольку маска R-CNN немного медленнее, чем Faster R-CNN.
Каков современный уровень обнаружения объектов, который не требуетобучение с сегментацией на уровне пикселей?
Выбор между объектом обнаружение и сегментация зависит от приложения и вашей цели. Если вы, например, имеете дело с медицинскими изображениями и пытаетесь обнаружить опухоль, то вам нужна сегментация, но, например, для обнаружения автомобиля на улице вам может быть неинтересны точные границы автомобиля, и вы просто хотите узнатьРасположение автомобиля на изображении. Для этого типа приложений достаточно обнаружения объектов. Для современного обнаружения объектов, которое также выполняется в режиме реального времени, я бы предложил использовать YOLO , поскольку он очень быстрый и работает так же быстро, как и Raster-RNN, если не лучше.