"Наша система делит входное изображение на сетку S * S. Если центр объекта попадает в ячейку сетки, эта ячейка сетки отвечает за обнаружение этого объекта."
Это от YOLOНа бумаге входные изображения разделены на сетку S * S, что означает, что вывод conv является размером S * S, верно?
Если да, то как эти маленькие ячейки (7 * 7) соединяются?в исходную область входного изображения?Я знаю, как работает конв, но как ограничивающие рамки делают регресс?