Итак, я имею дело с идентификацией объектов в видео и их классификацией по классам. На Amazon AWS я разработал ограничивающее решение + ResNet50, но я не доволен им. Во-первых, я должен сделать несколько снимков вручную, пометить, обучить сеть и применить к видео. Оценка большинства частей в порядке, но весь процесс занимает слишком много времени. Помните, что я притворяюсь, что применяю это к потоковому видео в реальном времени.
Я бегал вокруг и искал кучу разных подходов, чтобы решить эту проблему, поэтому я привожу эту топи c, чтобы получить некоторые идеи. Я подумал, что нашел: после того, как пометить и пометить все изображения заранее, создайте инструмент сегментации, который идентифицирует кадры, которые содержат область, в которой появляется изображение (то есть 3 заданных c области всего процесса, каждый из которых имеет разные формы), вырезать эти кадры и после обработки обученный NN на этом подмножестве кадров, чтобы классифицировать их по различным классам, которые у меня есть. Можете ли вы найти другой подход?
TL; DR: ищите подход, чтобы отделить некоторые кадры, которые содержат определенный c контент, а затем классифицировать их.