Так что я думаю, что это ответ. Не стесняйтесь поправлять меня, если я ошибаюсь.
Сетка позволяет нам обнаруживать несколько объектов одного и того же класса. Допустим, это всего лишь 1 большая сетка, и у нас есть 2 класса, на выходе будет массив из 14 чисел (7 для первого класса и 7 для второго класса). У нас не может быть другого набора из 7 чисел. Принимая во внимание, что если мы разделим изображение на сетки SxS, теперь мы можем сделать максимальное SxS число предсказания объекта для каждого из 2 классов.
Я думаю, именно поэтому заявлено, что YOLO борется с объектами, находящимися близко друг к другу в группе: потому что, если размер сетки недостаточно мал, у вас будет 2 или более центральных точек одного и того же класса объектов в одной сетке, но вы получите только 1 предсказание центральной точки.