Я новичок в области ML и у меня вопрос о компьютерном зрении. Почему программное обеспечение для обнаружения лиц и обнаружения объектов (например, фильтры лица в Instagram) может работать на наших смартфонах со скоростью 30–60 кадров в секунду, в то время как программное обеспечение для оценки поз (например, OpenPose) с трудом обрабатывает видео в реальном времени со скоростью выше 10 кадров в секунду (с приличными характеристиками) тоже)?
Поправьте меня, если я ошибаюсь, но программное обеспечение Snapchat может отследить ваше лицо до плохого освещения и довольно резких движений, и то же самое можно сделать с оценкой позы, но для этого требуется лучший / больший GPUS и работа на более низких FPS.
Какой тип нейронной сети будет наиболее быстрым для оценки позы в реальном времени и какие компоненты образуют надежную нейронную сеть, которая может точно предсказать позу человека в режиме реального времени?
Можно ли вообще выполнить много вычислений и при этом достичь относительно высокого FPS?
Любой ответ приветствуется