Я прошел через несколько YOLO
учебных пособий, но мне сложно кое-что понять, если предопределены поля привязки для каждой ячейки, на которую нужно разделить изображение.В одном из руководств, которые я прошел, изображение было разделено на 13x13 ячейки, и в нем говорилось, что каждая ячейка предсказывает 5 якорных ящиков (больше, чем это, хорошо, вот моя первая проблема, потому что это такжеговорит, что сначала обнаружит, какой объект присутствует в маленькой ячейке перед предсказанием блоков).
Как маленькая ячейка может предсказать якорные блоки для объекта, большего, чем он.Также сказано, что каждая ячейка классифицирует перед предсказанием своих якорных ячеек, как маленькая ячейка может классифицировать нужный объект в ней, не запрашивая соседние ячейки, если только небольшая часть объекта попадает в ячейку
E.g.
скажем, однаиз ячеек 13 содержит только белую карманную часть человека, одетого в футболку, как эта клетка может правильно классифицировать присутствие человека, не будучи связанным с соседними клетками?с обычной CNN при попытке локализовать один объект, я знаю, что предсказание ограничивающего прямоугольника относится ко всему изображению, поэтому, по крайней мере, я могу сказать, что сеть имеет представление о том, что происходит на изображении повсюду, прежде чем решить, где должен находиться прямоугольник.
PS: То, что я в настоящее время думаю о том, как работает YOLO, состоит в том, что каждой ячейке в основном назначаются заранее определенные якорные блоки с классификатором на каждом конце, прежде чем выбираются ящики с наивысшими баллами для каждого класса.но я уверен, что это ничего не значит.