Вывод CNN - тензор (13 * 13 * 5 * 25). предполагая 5 якорных ящиков и 20 классов для идентификации. каждая сетка в тензоре будет иметь [P c, Bx, By, Bh, Bw, (c1, c2 ........... c20)].
Итак, когда мы применяем CNN во входном изображении, откуда CNN знает, что нам нужна указанная выше сетка в том же порядке. И как, сворачивая входное изображение простыми слоями, мы получаем тензор выше.