Почему оценки поз так медленны? - PullRequest
1 голос
/ 31 мая 2019

Я новичок в области ML и у меня вопрос о компьютерном зрении. Почему программное обеспечение для обнаружения лиц и обнаружения объектов (например, фильтры лица в Instagram) может работать на наших смартфонах со скоростью 30–60 кадров в секунду, в то время как программное обеспечение для оценки поз (например, OpenPose) с трудом обрабатывает видео в реальном времени со скоростью выше 10 кадров в секунду (с приличными характеристиками) тоже)?

Поправьте меня, если я ошибаюсь, но программное обеспечение Snapchat может отследить ваше лицо до плохого освещения и довольно резких движений, и то же самое можно сделать с оценкой позы, но для этого требуется лучший / больший GPUS и работа на более низких FPS.

Какой тип нейронной сети будет наиболее быстрым для оценки позы в реальном времени и какие компоненты образуют надежную нейронную сеть, которая может точно предсказать позу человека в режиме реального времени?

Можно ли вообще выполнить много вычислений и при этом достичь относительно высокого FPS?

Любой ответ приветствуется

1 Ответ

0 голосов
/ 31 мая 2019

Чистое обнаружение всегда медленно.Наиболее распространенным способом обхода является использование обнаружения -> отслеживание -> обновление инфраструктуры.

В потоке отображения видео отображается с постоянными 30 кадрами в секунду.<- это то, что пользователь увидит и не почувствует боли в заднице.</p>

Бэкэнд, обнаружение вашей позы постоянно обновляется до модели позы (предсказывается, например, EKF или другим способом).EKF может выводить модель с частотой 30 Гц, соответствующей частоте резьбы дисплея.В промежутке, если у вас есть обновление лица, вы также можете обновить модель лица корреляции, чтобы локально предсказать движение маленькой ступенчатой ​​/ базовой линии с большим пространством.На шаге обновления позы ключа дайте низкое отклонение этому обновлению для выполнения основного обновления.

...