Что такое «голова» обнаружения объекта? - PullRequest
0 голосов
/ 26 октября 2018

Я сейчас читаю на SSD Single Shot Detector, и я пытаюсь понять этот термин. Термин «голова». Когда я слышу это слово, я думаю о главе сети, как в начале.

Я посмотрел на API обнаружения объектов , созданный Google, и обнаружил папку "главы " с разными типами головок, одну для кодирования блока, а другую для предсказаний классов.

Документация для абстрактного класса "начальник" не была супер просветительной:

Все разные виды прогнозирующих головок в разных моделях будут наследоваться из этого класса. Что общего между всеми головными классами в том, что у них есть predict функция, которая получает features в качестве первого аргумента.

Думаю, я понимаю их на высоком уровне, но у меня нет конкретного определения их. Может ли кто-то определить «голову» и объяснить, как можно иметь «голову предсказания коробки» или «голову классификации»?

1 Ответ

0 голосов
/ 28 октября 2018

В некоторых доменах голова - это термин для начала или начала чего-либо. В этом домене все по-другому. Во многих задачах в области компьютерного зрения вы обычно используете «магистраль», которая обычно проходит предварительную подготовку в ImageNet. Таким образом, магистраль используется в качестве экстрактора объектов, который дает представление карты объектов для входных данных. Теперь, когда у вас есть такая карта объектов, вам нужно выполнить реальную задачу, такую ​​как обнаружение, сегментация и т. Д. Обычно это делается путем наложения «головы обнаружения» на карту (ы) объектов, поэтому это похоже на голову, прикрепленную к магистрали.

В случае обнаружения объекта вам потребуются два типа вывода: классификационная достоверность и ограничивающие рамки. Они могут быть двумя разными, разъединенными головками (например, RetinaNet) или одной головкой, которая вычисляет оба выхода (например, SSD). В обоих случаях вам необходимо указать точный способ интерпретации выходных данных. Например, выходы регрессии ограничивающего прямоугольника, они относительно якоря? Или, может быть, относительно всего изображения? Классификация конфиденциальных данных - вы используете softmax на выходе для получения конфиденциальных данных? и т.д.

...