Я предполагаю, что предварительно обученные модели, такие как Faster-R-CNN от pytorch, имеют ограничение на максимальное количество обнаруженных экземпляров. Правильно ли, что есть ограничение, и если да, то как мне найти этот предел?
Когда я загружаю модель и смотрю на архитектуру, последний слой показывает bbox_pred out_features=364
. Это тот номер, который я ищу?
Я думаю, что в документации на него ссылается N
, но он не определен далее:
During inference, the model requires only the input tensors, and returns the post-processed
predictions as a List[Dict[Tensor]], one for each input image. The fields of the Dict are as
follows:
- boxes (FloatTensor[N, 4]): the predicted boxes in [x1, y1, x2, y2] format, with values between
0 and H and 0 and W
- labels (Int64Tensor[N]): the predicted labels for each image
- scores (Tensor[N]): the scores or each prediction
https://pytorch.org/docs/stable/_modules/torchvision/models/detection/faster_rcnn.html
Спасибо за помощь: -)