Я работаю над выполнением классификации видео для набора данных, имеющего два класса (например, классификация между игрой в крикет и рекламой). У меня есть ~ 1000 видео в наборе обучающих данных и ~ 300 видео в наборе тестовых данных.
В качестве ссылки я использую следующие ссылки:
Пять методов классификации видео реализованы в Kerasи TensorFlow
Непрерывная онлайн-классификация видео с TensorFlow, Inception и Raspberry Pi
Мой набор данных содержит обе активности (игра в крикет и рекламу) в одном видео.
Поскольку временные характеристики важны для классификации видео, я планирую применить модель CNN + LSTM / 3D CNN / opticalFlow. Однако у меня есть некоторые сомнения в том, что данный подход в упомянутых выше ссылках будет работать в этом случае, так как он ожидает, что видео набора данных поезда разделены на основе меток.
Другой вопрос заключается в том, помогают ли временные функции улучшить точность классификациии уменьшение мерцания при классификации видео, содержащих несколько меток?