Как структурировать видеовход для LSTM с керасом? - PullRequest
0 голосов
/ 03 января 2019

У меня есть каждый кадр из нескольких видео и их ярлыки в пакетах - с использованием генератора данных.

Я хочу получить функции CNN каждого кадра (скажем, VGG) и использовать их в качестве входных данных для LSTM (довольно классический).

Я понимаю концепцию скользящего окна и размера шага, ноя не понимаю, как мы структурируем видео таким образом, чтобы оно осознавало, когда видео заканчивается, а другое начинается?В тех немногих примерах, которые я мог найти, это никогда не упоминалось, и скользящее окно запускается последовательно в пакете, что означает, что у него будут окна с одним окончанием видео и другим началом, как если бы они были последовательными.Поместить каждое видео в пакет и дополнить их не представляется возможным, потому что 1. Размеры видео сильно различаются 2. Большинство видео длиннее, чем размер пакета.

Еще одна вещь, которую я не могу понять, это то, что все примеры сосредоточенына прогнозирование следующего кадра, но нет ли способа сделать классификацию напрямую?Предсказание следующего кадра после 5 кадров - это другая проблема, чем классификация последовательности кадров, я думаю, что сглаживание или усреднение по времени может быть вариантом, но есть ли лучший способ?).

Спасибо.

...