Гистограмма ориентированных градиентов - PullRequest
12 голосов
/ 08 апреля 2011

Я читал теорию о дескрипторах HOG для обнаружения объекта (человека). Но у меня есть несколько вопросов по поводу реализации, которые могут звучать как незначительная деталь.

Относительно окна, которое содержит блоки; следует ли перемещать окно поверх изображения пиксель за пикселем, где окна перекрываются на каждом шаге, как показано здесь: enter image description here

или окно должно быть перемещено без перекрытия, как здесь: enter image description here

Иллюстрации, которые я видел до сих пор, использовали второй подход. Но, учитывая, что окно обнаружения имеет размер 64x128, весьма вероятно, что при скольжении окна по изображению невозможно охватить все изображение. Если размер изображения 64х255, то последние 127 пикселей не будут проверяться на предмет. Таким образом, первый подход представляется более разумным, однако требует больше времени и ресурсов процессора.

Есть идеи? Заранее спасибо.

РЕДАКТИРОВАТЬ: Я стараюсь придерживаться оригинальной бумаги Далала и Триггса. Одна статья, которая реализовала алгоритм и использует второй подход, может быть найдена здесь: http://www.cs.bilkent.edu.tr/~cansin/projects/cs554-vision/pedestrian-detection/pedestrian-detection-paper.pdf

1 Ответ

4 голосов
/ 08 апреля 2011

EDIT: Извините - я неправильно понял ваш вопрос. (Кроме того, ответ, который я дал на вопрос неправильный , был ошибочным - с тех пор я скорректировал его ниже для контекста.)

Вы спрашиваете о использовании дескриптора HOG для обнаружения, а не генерации дескриптора HOG.

В документе по реализации, на который вы ссылаетесь выше, похоже, что они перекрывают окно обнаружения. Размер окна составляет 64x128, при этом они используют горизонтальный шаг 32 пикселя и вертикальный шаг 64. Они также упоминают, что они пробовали меньшие значения шага, но это привело к более высокому значению ложных срабатываний (в контексте их реализации).

Кроме того, они используют 3 масштаба входного изображения: 1, 1/2 и 1/4. Они не упоминают о соответствующем масштабировании окна обнаружения - я не уверен, какой эффект это даст с точки зрения обнаружения. Похоже, что это неявно также создаст перекрытие.


Оригинальный ответ (исправлено):

Глядя на статью Далала и Триггса (в разделе 6.4), похоже, что они упоминают и i) отсутствие перекрытия блоков, а также ii) перекрытие половин и четвертей блоков при генерации дескриптора HOG. Исходя из их результатов, звучит так, что большее перекрытие обеспечивает лучшую производительность обнаружения (хотя и при более высоких затратах на ресурсы / обработку).

...