В целом, есть ли "лучшая практика" по использованию видео в качестве входных данных для моделей глубокого обучения?Как мы можем аннотировать видео наиболее эффективным способом?
Кроме того, у меня есть несколько видео с утками, идущими по коридору.Я хочу посчитать количество серой утки и количество желтой утки, проходящей через проход.Утка может проходить напрямую (самый простой случай), или может оставаться в проходе некоторое время и проходить через нее, или может пройти половину прохода и вернуться в другом направлении (в этом случае это не должно учитываться).
Я планирую использовать Mask-RCNN для сегментирования уток в каждом кадре, а затем смотреть на маски из кадра i и маски из кадра i + 1 и устанавливать правила для подсчета количества различных уток, которые действительно проходятпроход.Это не кажется мне оптимальным.
Есть идеи / помощь / советы?