Я хотел бы задать общий вопрос об алгоритмах обнаружения объектов на основе DNN, таких как Yolo, SSD или R-CNN.
Предположим, я хотел бы обнаруживать мобильные телефоны на небольших изображениях, где - следовательно,- сами мобильные устройства очень малы, более того, их практически невозможно обнаружить только по тем пикселям, на которых они появляются.Например, глядя на изображение размером 300x300, мобильный телефон отображается в виде сетки 7x5, поэтому, только глядя на изображение 7x5, никто не может точно решить, что там можно увидеть.
С другой стороны, если мыПосмотрите на вагон метро на картинке, где у человека в руке есть что-то черное, мы (люди) почти уверены, что маленькая черная сетка 7x5 означает мобильное устройство.
Правильно ли я понимаю, что современные современные алгоритмы DNN не могут захватывать окружающую среду, как это делают люди, а обнаруживают объекты только по их физическому появлению на изображении?Если нет, то можете ли вы предложить алгоритм, который не обязательно обучается только на группе черных пикселей, но способен захватить человека, который держит в руке черную вещь, которая, вероятно, будет телефоном?
Спасибо.