Вместо того, чтобы классифицировать все изображение в видео, как мы можем классифицировать то, что происходит внутри ограничительных рамок в видео?
Я использовал YOLO V3, чтобы получить ограничивающие рамки часов. Как я могу приступить к маркировке ограничивающих рамок соответствующими надписями «Медленная скорость», «Нормальная скорость» и «Быстрая скорость».
У меня действительно есть помеченный тренировочный набор в следующей структуре.
Папка 1: 1000 в формате Multi-Clock в видео
Папка 2: 1000 соответствующих аннотированных файлов JSON / XML с координатами часов с соответствующими метками («Slow Speed», «Normal»). Speed "," Fast Speed ").
Может ли кто-нибудь любезно указать мне на учебник или представить простую модель, которая может классифицировать мультиклассовые видеопоследовательности?
Эти tut , tut2 (хотя он не использует RNN или LSTM), Tut3 делает это на всем видео вместо ограничительной рамки.
Цель набор данных для поиска часов с ненормальным поведением.