Что такое масштабная инвариантность и трансляция лог-пространства ограничительной рамки? - PullRequest
0 голосов
/ 07 апреля 2019

В медленной статье R-CNN цель регрессии ограничивающего прямоугольника состоит в том, чтобы изучить преобразование, которое отображает предлагаемый ограничивающий прямоугольник P в прямоугольник истинного заземления G, и мы параметризуем преобразование в терминах четырех функций dx (P), dy(Р), с.в. (Р), дк (Р).

  • Первые 2 указывают масштабно-инвариантный перевод центра ограничительной рамки P , тогда как

  • 2ndдва определяет трансляции лог-пространства ширины и высоты ограничительной рамки P относительно предложения объекта .

Это та же техника, что и в статье Fast-RCNN для предсказания ВВ.!

Вопрос1.Может ли кто-нибудь помочь мне понять актуальность масштабной инвариантности и лог-пространства (обоих) ограничительной рамки и как эти функции охватывают эти два аспекта?

Вопрос 2.Чем вышеупомянутый масштабно-инвариантный перевод BB отличается от достижения масштабно-инвариантного обнаружения объектов (поясняется ниже)?

Я имею в виду, что в быстрой R-CNN автор указал, что ниже 2 способов достижения масштабной инвариантности при обнаружении объектов:

  • Во-первых, грубаяПри принудительном подходе каждое изображение обрабатывается с заранее заданным размером пикселя как во время обучения, так и во время тестирования.Сеть должна напрямую изучать обнаружение объектов, не зависящее от масштаба, из данных обучения

  • Второй подход с использует пирамиды изображений.

Пожалуйста, не стесняйтесь цитировать исследовательскую работу, чтобы я мог читать для более глубокого понимания.

1 Ответ

1 голос
/ 10 апреля 2019

Целью этих функций dx(P), dy(P), dw(P), dh(P) является преобразование из поля предложения в поле заземления. Они моделируются как линейные функции объединенных объектов из карт объектов и содержат изучаемые параметры (веса).

В документе говорится, что dx(P), dy(P) задает масштабно-инвариантный перевод центра ограничительной рамки P, обратите внимание, что они указывают, но не , так что же это за перевод? Перевод выглядит так:

enter image description here

Чтобы понять, что такое масштаб-инвариант, мы можем начать с того, зачем это нужно? Потому что предложения bboxes могут быть разных размеров. На приведенном ниже рисунке лица с битой и bbox-ы предложения метателя имеют разные размеры, оба, после того, как объединение ROI будет представлено как фиксированный вектор объектов одной и той же формы (FIXED AND SAME SHAPE !!). Когда регрессор делает прогноз, он просто прогнозирует значения dx(P) и dy(P) и не различает, из какого bbox предложения находится вектор признаков. При применении этого значения к входному изображению, поскольку у нас уже есть информация, предоставленная bboxes предложения (Px, Py, Pw, Ph), центр bboxes во входном изображении может быть просто вычислен преобразованием! (Обратите внимание, что оба предложения классного человека, чтобы регрессор мог быть таким же, иначе регрессор другой)

enter image description here

Что касается последующих двух преобразований:

enter image description here

Если вы примените преобразование журнала с обеих сторон, вы увидите:

enter image description here


dw(P) и dh(P) укажите перевод пространства журнала!

Что касается второго вопроса, регрессия ограничивающего прямоугольника является частью всего конвейера обнаружения и используется только для регрессии bbox. Кроме регрессии bbox, обнаружение объектов также связано с классификацией изображений, генерацией предложений и т. Д. Например, пирамидальные изображения применяются во время генерации предложений.

enter image description here

...