Что представляет собой вывод координат алгоритма yolo? - PullRequest
0 голосов
/ 22 сентября 2018

Мой вопрос похож на эту тему.Я смотрел эту лекцию Эндрю Нга о предсказании ограничивающего прямоугольника, когда начал думать о выходе алгоритма yolo.Давайте рассмотрим этот пример. Мы используем сетки 19x19 и только одно восприимчивое поле с 2 классами, поэтому наш результат будет => 19x19x1x5.Последнее измерение (массив размером 5) представляет собой следующее:

1) The class (0 or 1)  
2) X-coordinate  
3) Y-coordinate  
4) height of the bounding box  
5) Width of the bounding box

Я не понимаю, представляют ли координаты X, Y ограничивающую рамку относительно размера всего изображения или просто и восприимчивого поля (фильтр).В видео ограничивающий прямоугольник представлен как часть восприимчивого поля, но логически восприимчивое поле намного меньше ограничивающего прямоугольника, и люди могут возиться с размером фильтра, поэтому позиционирование ограничивающих прямоугольников относительно фильтра не имеет смысла.

Итак, что в основном представляют собой координаты ограничительных рамок изображения?

1 Ответ

0 голосов
/ 22 сентября 2018

С Понимание YOLO post @ Hacker Noon:

Каждая ячейка сетки предсказывает B ограничивающих рамок, а также вероятности класса C.Прогноз ограничительной рамки состоит из 5 компонентов: (x, y, w, h, доверие) .Координаты (x, y) представляют центр прямоугольника относительно местоположения ячейки сетки (помните, что если центр прямоугольника не попадает внутрь ячейки сетки,чем эта клетка за это не отвечает).Эти координаты нормализованы так, чтобы находиться в диапазоне от 0 до 1. Размеры поля (w, h) также нормализованы до [0, 1] относительно размера изображения.Давайте рассмотрим пример:

enter image description here

...