Целью этих функций dx(P), dy(P), dw(P), dh(P)
является преобразование из поля предложения в поле заземления. Они моделируются как линейные функции объединенных объектов из карт объектов и содержат изучаемые параметры (веса).
В документе говорится, что dx(P), dy(P)
задает масштабно-инвариантный перевод центра ограничительной рамки P, обратите внимание, что они указывают, но не , так что же это за перевод? Перевод выглядит так:
Чтобы понять, что такое масштаб-инвариант, мы можем начать с того, зачем это нужно? Потому что предложения bboxes могут быть разных размеров. На приведенном ниже рисунке лица с битой и bbox-ы предложения метателя имеют разные размеры, оба, после того, как объединение ROI будет представлено как фиксированный вектор объектов одной и той же формы (FIXED AND SAME SHAPE !!). Когда регрессор делает прогноз, он просто прогнозирует значения dx(P)
и dy(P)
и не различает, из какого bbox предложения находится вектор признаков. При применении этого значения к входному изображению, поскольку у нас уже есть информация, предоставленная bboxes предложения (Px, Py, Pw, Ph
), центр bboxes во входном изображении может быть просто вычислен преобразованием! (Обратите внимание, что оба предложения классного человека, чтобы регрессор мог быть таким же, иначе регрессор другой)
Что касается последующих двух преобразований:
Если вы примените преобразование журнала с обеих сторон, вы увидите:
dw(P)
и dh(P)
укажите перевод пространства журнала!
Что касается второго вопроса, регрессия ограничивающего прямоугольника является частью всего конвейера обнаружения и используется только для регрессии bbox. Кроме регрессии bbox, обнаружение объектов также связано с классификацией изображений, генерацией предложений и т. Д. Например, пирамидальные изображения применяются во время генерации предложений.