В настоящее время у меня есть (университетское) задание, где нам нужно создать нейронную сеть, используя любую технику, которая может обнаруживать отдельные объекты по изображениям. Но я чувствую, что у меня нет понимания того, как работают эти алгоритмы, сейчас я читаю статьи о YOLO, CNN и RCNN. Но одна вещь, которая не объяснена (или, по крайней мере, не очевидна для меня), это то, что выводит такой алгоритм (используя ограничивающие рамки, чтобы показать, где находится объект).
Я понимаю, что данные, которые вводятся в эти сети, являются массивом значений пикселей изображения, но каков его вывод?
Я считаю, что это работает так: вывод алгоритма обнаружения 1 объекта будет массивом, который содержит высоту / ширину и положение x / y ограничивающего прямоугольника. Но это подводит меня к следующему вопросу: как эти алгоритмы могут обобщаться на n объектов.
Меня как-то удивляет, что это никогда не объясняли мне в университете и не так легко найти. Каждое введение в обнаружение объекта Я обнаружил, что не упоминает этот основной факт.