Я изучаю Faster R-CNNs, и есть кое-что, с чем я борюсь.
В оригинальной бумаге (в деталях реализации логического вывода) они обрезают изображения, которые выходят за границы изображения.
Например, преобразование BoundingBox в Caffe: https://caffe2.ai/docs/operators-catalogue.html#bboxtransform
Принимает также тензор im_info
, который используется для обрезки сгенерированных якорей.
Что я не понимаю: почему im_info
должен быть тензором?Разве это не может быть пара (img_w, img_h)
?
Я имею в виду, что все трехмерные изображения в четырехмерном тензоре должны иметь одинаковые размеры.Зачем нужен тензор, задающий каждое измерение для каждого изображения?
Я понял различные реализации Raster-RNN (например, this ), но не нашел ответа на этот вопрос.
Спасибо за любой ответ, Джузеппе