Мой вопрос похож на эту тему.Я смотрел эту лекцию Эндрю Нга о предсказании ограничивающего прямоугольника, когда начал думать о выходе алгоритма yolo.Давайте рассмотрим этот пример. Мы используем сетки 19x19 и только одно восприимчивое поле с 2 классами, поэтому наш результат будет => 19x19x1x5.Последнее измерение (массив размером 5) представляет собой следующее:
1) The class (0 or 1)
2) X-coordinate
3) Y-coordinate
4) height of the bounding box
5) Width of the bounding box
Я не понимаю, представляют ли координаты X, Y ограничивающую рамку относительно размера всего изображения или просто и восприимчивого поля (фильтр).В видео ограничивающий прямоугольник представлен как часть восприимчивого поля, но логически восприимчивое поле намного меньше ограничивающего прямоугольника, и люди могут возиться с размером фильтра, поэтому позиционирование ограничивающих прямоугольников относительно фильтра не имеет смысла.
Итак, что в основном представляют собой координаты ограничительных рамок изображения?