Если вы хотите использовать его в приложении реального времени, необходимо учитывать несколько других вещей, которые не появлялись до реализации алгоритма в реальной среде.
Что касается предлагаемого трехэтапного метода, он уже может привести к созданию хорошего метода, но первый шаг будет очень точным. Я думаю, что лучше объединить 3 шага в один шаг. Потому что тип движения человека - это хорошая черта человека. Из-за этого, я думаю, все шаги могут быть собраны за один шаг.
Моя идея заключается в следующем: 1. набор данных классификации видео, который просто помечает движение человека или объекта 2. метод классификации видео на основе cnn-lstm
Это позволит решить ваш проект должным образом.
Этот ответ требует более подробной информации, если вы заинтересованы, я могу ответить вам более подробно.