Выходной вектор для алгоритмов YOLO и скользящего окна - PullRequest
0 голосов
/ 27 декабря 2018

Как я понимаю, в алгоритме YOLO мы делим входное изображение на сетку, например, 19x19, и мы должны иметь выходной вектор (pc, bx, by, bh bw, c) для каждой ячейки.Тогда мы можем обучить нашу сеть.И мой вопрос: почему мы даем сетевому XML-файлу только одну ограничивающую рамку, метки и т. Д. (Если на изображении только один объект) вместо 19 * 19 = 361?Разделяет ли реализация сети изображение и создает вектор для каждой ячейки автоматически?(Как это сделать?)

Тот же вопрос для алгоритма скользящего окна.Почему мы даем в сеть только один вектор с меткой и ограничивающим прямоугольником вместо того, чтобы давать вектор для каждого скользящего окна.

1 Ответ

0 голосов
/ 28 декабря 2018

Допустим, что вывод YOLO состоит из 19 на 19 ячеек сетки, и каждая ячейка сетки имеет некоторую глубину.Каждая ячейка сетки может обнаруживать некоторые ограничивающие рамки, максимальное количество которых зависит от конфигурации модели.Например, если одна ячейка сетки может обнаружить до 5 ограничивающих прямоугольников, модель может обнаружить всего 19x19x5 = 1805 ограничивающих прямоугольников.

Поскольку это число слишком велико, мы обучаем модель так, чтобы только ячейка сетки, которая содержит центр ограничивающей рамки внутри нее , предсказывает ограничивающую рамку с высокой достоверностью.Когда мы обучаем модель, мы сначала выясняем, где находится центр истинной ограничительной рамки, и обучаем модель так, чтобы ячейка сетки, содержащая центр, предсказывала ограничивающую рамку, подобную истинной с высокой вероятностью, и такую, чтобы другиеЯчейки сетки будут предсказывать ограничивающие прямоугольники с как можно более низкой вероятностью (когда вероятность ниже порогового значения, этот прогноз отбрасывается).

На рисунке ниже показана ячейка сетки, содержащая центр ячейки, когда на выходе есть 13на 13 ячеек сетки.

enter image description here

То же самое, если на тренировочных изображениях более одного объекта.Если в обучающем образе есть два объекта, мы обновляем две ячейки сетки, которые содержат центры истинных двух прямоугольников, так что они создают ограничивающие прямоугольники с высокой вероятностью.

...