YOLO предсказывает смещения для якорей.Якоря инициализируются так, что есть 13x13 наборов якорей.(В Yolov3 каждый набор имеет k = 5 якорей, разные версии yolo имеют разные k.) Якоря распределены по изображению, чтобы обеспечить обнаружение объектов во всех частях.
Якоря могут иметь произвольный размери пропорции, не связанные с размером сетки.Если в вашем наборе данных в основном большие объекты переднего плана, то вы должны инициализировать свои якоря большими.YOLO учится лучше, если ему нужно только внести небольшие изменения в привязки.
В каждом прогнозе фактически используется информация из всего изображения.Часто контекст из остальной части изображения помогает предсказанию.например, черные пиксели под транспортным средством могут быть либо шинами, либо тенью.
Алгоритм действительно «не знает», в какой ячейке находится центр объекта.Но во время обучения у нас есть эта информация от истины, и мы можем научить ее угадывать.При достаточном обучении получается довольно хорошо угадывать.Способ, который работает, состоит в том, что ближайший якорь к наземной истине назначается объекту.Другие привязки назначаются другим объектам или фону.Предполагается, что привязки, назначенные фону, имеют низкую достоверность, тогда как привязки, назначенные объекту, оцениваются по IoU их ограничивающих рамок.Таким образом, обучение укрепляет один якорь, чтобы дать высокую уверенность и точную ограничивающую рамку, в то время как другие якоря дают низкую уверенность.Приведенный в вашем вопросе пример не включает в себя какие-либо прогнозы с низкой достоверностью (вероятно, для упрощения), но на самом деле будет гораздо больше прогнозов с низкой достоверностью, чем с высокой достоверностью.