Я думаю, что путаница возникает из-за этого:
Что мы получаем, используя CNN для определения центров наших якорных ящиков, которые в конечном итоге будут равномерно распределены по тренировочному образу
Сеть обычно не предсказывает центры, но исправляет их по предварительному мнению. Начальные опорные центры распределены равномерно по всему изображению, и поэтому не достаточно плотно прилегают к объектам сцены. Эти якоря просто составляют априор в смысле вероятности. То, что ваша сеть будет точно выводить, зависит от реализации, но, скорее всего, будет просто обновлением, т.е. исправлениями к этим начальным априорам. Это означает, что центрами, которые предсказаны вашей сетью, являются некоторые delta_x, delta_y
, которые настраивают ограничивающие рамки.
Относительно этой части:
почему бы нам напрямую не принять центры наших якорных ячеек на тренировочном изображении с подходящим шагом и использовать CNN только для вывода значений классификации и регрессии
Значения регрессии должны по-прежнему содержать достаточную информацию для уникального определения ограничивающего прямоугольника. Прогнозирование ширины, высоты и смещений центра (поправок) - это простой способ сделать это, но это, конечно, не единственный способ. Например, вы можете изменить сеть так, чтобы она предсказывала каждый пиксель, вектор расстояния до его ближайшего центра объекта или вы могли использовать параметры c. Однако грубые фиксированные якорные центры не являются хорошей идеей, поскольку они также вызовут проблемы при классификации, так как вы используете их для объединения объектов, представляющих объект.