Что выводит алгоритм обнаружения объекта / нейронная сеть? - PullRequest
0 голосов
/ 10 января 2019

В настоящее время у меня есть (университетское) задание, где нам нужно создать нейронную сеть, используя любую технику, которая может обнаруживать отдельные объекты по изображениям. Но я чувствую, что у меня нет понимания того, как работают эти алгоритмы, сейчас я читаю статьи о YOLO, CNN и RCNN. Но одна вещь, которая не объяснена (или, по крайней мере, не очевидна для меня), это то, что выводит такой алгоритм (используя ограничивающие рамки, чтобы показать, где находится объект).

Я понимаю, что данные, которые вводятся в эти сети, являются массивом значений пикселей изображения, но каков его вывод?

Я считаю, что это работает так: вывод алгоритма обнаружения 1 объекта будет массивом, который содержит высоту / ширину и положение x / y ограничивающего прямоугольника. Но это подводит меня к следующему вопросу: как эти алгоритмы могут обобщаться на n объектов.

Меня как-то удивляет, что это никогда не объясняли мне в университете и не так легко найти. Каждое введение в обнаружение объекта Я обнаружил, что не упоминает этот основной факт.

1 Ответ

0 голосов
/ 10 января 2019

Для обнаружения нескольких объектов можно «наложить» изображение на фиксированную сетку. Для каждой ячейки в сетке вывод будет содержать информацию о том, содержится или нет центр массы данного объекта в этой ячейке, и впоследствии, каковы размеры ограничивающего прямоугольника. Это предполагает, что каждая ячейка сетки содержит центроид только одного объекта, что часто бывает, если разрешение вашей ячейки достаточно высокое.

Размер выходного сигнала сети пропорционален количеству ячеек сетки (например, каждая ячейка имеет координаты XY центроида объекта, ширину / высоту ограничительной рамки и коэффициент достоверности того, что в ячейке присутствует уникальный объект) ).

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...