Detectron2 - извлекает элементы области на пороге обнаружения объекта - PullRequest
2 голосов
/ 18 июня 2020

Я пытаюсь извлечь особенности региона, в которых определение класса выше некоторого порога, с помощью структуры detectron2 . Я буду использовать эти функции позже в моем конвейере (аналогично: VilBert раздел 3.1 Обучение ViLBERT). До сих пор я обучал Mask R-CNN с этим config и настраивал его. на некоторых пользовательских данных. Работает хорошо. Что я хотел бы сделать, так это извлечь функции из моей обученной модели для созданной ограничительной рамки.

EDIT : я посмотрел, что написали пользователи, которые закрыли мой пост, и попытался его уточнить. . Хотя читателю нужен контекст того, что я делаю. Если у вас есть идеи, как я могу улучшить вопрос или у вас есть представление о том, как сделать то, что я пытаюсь сделать, ваш отзыв приветствуется!

У меня вопрос:

  1. Почему я получаю только один экземпляр прогноза , но когда я смотрю на баллы CLS прогноза , то пороговое значение превышает 1?

Я считаю, что это правильный способ создания функций ROI:

images = ImageList.from_tensors(lst[:1], size_divisibility=32).to("cuda")  # preprocessed input tensor
#setup config
cfg = get_cfg()
cfg.merge_from_file(model_zoo.get_config_file("COCO-InstanceSegmentation/mask_rcnn_R_101_FPN_3x.yaml"))
cfg.MODEL.WEIGHTS = os.path.join(cfg.OUTPUT_DIR, "model_final.pth")
cfg.SOLVER.IMS_PER_BATCH = 1
cfg.MODEL.ROI_HEADS.NUM_CLASSES = 1  # only has one class (pnumonia)
#Just run these lines if you have the trained model im memory
cfg.MODEL.ROI_HEADS.SCORE_THRESH_TEST = 0.7   # set the testing threshold for this model
#build model
model = build_model(cfg)
DetectionCheckpointer(model).load("output/model_final.pth")
model.eval()#make sure its in eval mode

#run model
with torch.no_grad():
    features = model.backbone(images.tensor.float())
    proposals, _ = model.proposal_generator(images, features)
    instances = model.roi_heads._forward_box(features, proposals)

Тогда

pred_boxes = [x.pred_boxes for x in instances]
rois = model.roi_heads.box_pooler([features[f] for f in model.roi_heads.in_features], pred_boxes)

Это должны быть мои функции ROI.

Что Я очень смущен тем, что вместо использования ограничивающих рамок, созданных при выводе, я мог бы использовать предложения и предложения_boxes с их оценками классов, чтобы получить n лучших функций для этого изображения. Круто, поэтому я попробовал следующее:

proposal_boxes = [x.proposal_boxes for x in proposals]
proposal_rois = model.roi_heads.box_pooler([features[f] for f in model.roi_heads.in_features], proposal_boxes)
#found here: https://detectron2.readthedocs.io/_modules/detectron2/modeling/roi_heads/roi_heads.html
box_features = model.roi_heads.box_head(proposal_rois)
predictions = model.roi_heads.box_predictor(box_features)
pred_instances, losses = model.roi_heads.box_predictor.inference(predictions, proposals)

Где я должен получать функции своего окна предложения и его cls в моих прогнозах объекте . Проверяя этот объект предсказаний , я вижу оценки для каждого поля:

CLS Scores in Predictions object

(tensor([[ 0.6308, -0.4926],
         [-1.6662,  1.5430],
         [-0.2080,  0.4856],
         ...,
         [-6.9698,  6.6695],
         [-5.6361,  5.4046],
         [-4.4918,  4.3899]], device='cuda:0', grad_fn=<AddmmBackward>),

После softmaxing и размещения этих cls оценок в кадре данных и установив порог 0,6, я получаю:

pred_df = pd.DataFrame(predictions[0].softmax(-1).tolist())
pred_df[pred_df[0] > 0.6]
    0           1
0   0.754618    0.245382
6   0.686816    0.313184
38  0.722627    0.277373

, а в моем объекте прогнозов я получаю тот же самый высокий балл, но только 1 экземпляр, а не 2 (я установил cfg.MODEL.ROI_HEADS.SCORE_THRESH_TEST = 0.7):

Экземпляры прогнозов :

[Instances(num_instances=1, image_height=800, image_width=800, fields=[pred_boxes: Boxes(tensor([[548.5992, 341.7193, 756.9728, 438.0507]], device='cuda:0',
        grad_fn=<IndexBackward>)), scores: tensor([0.7546], device='cuda:0', grad_fn=<IndexBackward>), pred_classes: tensor([0], device='cuda:0')])]

Прогнозы также содержат Tensor: Nx4 или Nx (Kx4) дельты регрессии ограничивающей рамки. чего я не делаю. Я точно знаю, что они делают и как выглядят:

Дельты регрессии ограничивающей рамки в объекте Predictions

tensor([[ 0.2502,  0.2461, -0.4559, -0.3304],
        [-0.1359, -0.1563, -0.2821,  0.0557],
        [ 0.7802,  0.5719, -1.0790, -1.3001],
        ...,
        [-0.8594,  0.0632,  0.2024, -0.6000],
        [-0.2020, -3.3195,  0.6745,  0.5456],
        [-0.5542,  1.1727,  1.9679, -2.3912]], device='cuda:0',
       grad_fn=<AddmmBackward>)

Еще одна странность в том, что мои коробки предложений и мои окна прогнозов разные, но похожи:

Ограничительные рамки предложения

[Boxes(tensor([[532.9427, 335.8969, 761.2068, 438.8086],#this box vs the instance box
         [102.7041, 352.5067, 329.4510, 440.7240],
         [499.2719, 317.9529, 764.1958, 448.1386],
         ...,
         [ 25.2890, 379.3329,  28.6030, 429.9694],
         [127.1215, 392.6055, 328.6081, 489.0793],
         [164.5633, 275.6021, 295.0134, 462.7395]], device='cuda:0'))]

1 Ответ

2 голосов
/ 04 июля 2020

Вы почти у цели. Посмотрев на roi_heads.box_predictor.inference () , вы увидите, что он не просто сортирует баллы кандидатов в блоки. Во-первых, он применяет дельты ящиков для корректировки ящиков предложения. Затем он вычисляет Non-Maximum Suppression, чтобы удалить неперекрывающиеся блоки (при этом также применяя другие гипер-настройки, такие как порог оценки). Наконец, он ранжирует коробки топ-k в соответствии с их оценками. Это, вероятно, объясняет, почему ваш метод дает одинаковые оценки ящиков, но разное количество выходных ящиков и их координаты.

Возвращаясь к исходному вопросу, вот способ извлечения характеристик предлагаемых ящиков за один проход вывода:

image = cv2.imread('my_image.jpg')
height, width = image.shape[:2]
image = torch.as_tensor(image.astype("float32").transpose(2, 0, 1))
inputs = [{"image": image, "height": height, "width": width}]
with torch.no_grad():
    images = model.preprocess_image(inputs)  # don't forget to preprocess
    features = model.backbone(images.tensor)  # set of cnn features
    proposals, _ = model.proposal_generator(images, features, None)  # RPN

    features_ = [features[f] for f in model.roi_heads.box_in_features]
    box_features = model.roi_heads.box_pooler(features_, [x.proposal_boxes for x in proposals])
    box_features = model.roi_heads.box_head(box_features)  # features of all 1k candidates
    predictions = model.roi_heads.box_predictor(box_features)
    pred_instances, pred_inds = model.roi_heads.box_predictor.inference(predictions, proposals)
    pred_instances = model.roi_heads.forward_with_given_boxes(features, pred_instances)

    # output boxes, masks, scores, etc
    pred_instances = model._postprocess(pred_instances, inputs, images.image_sizes)  # scale box to orig size
    # features of the proposed boxes
    feats = box_features[pred_inds]
...