Ваша проблема в контексте классификации последовательностей.Вам необходимо классифицировать последовательности изображений.В этом случае модель необходима для изучения двух аспектов:
- Особенности изображений
- Особенности последовательности (временные или временные характеристики)
Это может звучать похоже на классификацию видео, в которой видео представляет собой последовательность из нескольких кадров.См. здесь .
Для извлечения функций из изображений:
В большинстве реальных случаев используются сверточные нейронные сети.Они используют такие слои, как Max Pooling и Convolution.Они превосходны в извлечении функций из 3D-ввода, как изображенияВы можете узнать больше из здесь .
Для обработки временных данных:
Здесь вам потребуется RNN (Recurrent Neural Network).Ячейки LSTM (долговременной кратковременной памяти) являются популярными RNN, поскольку они могут хранить более прочную память, чем традиционные RNN.
RNN сохраняют активации скрытого уровня и используют их при обработке каждого термина в последовательности,Следовательно, при обработке 2-го изображения в последовательности, RNN знает или активирует 1-е изображение в той же последовательности.
Вы можете узнать больше из здесь .
Наконец, нам требуется объединить обе вышеуказанные сети:
Сеть CNN-LSTM использует как сверточные, так и ячейки LSTM для классификации последовательностей изображений.
![This is how they look.](https://i.stack.imgur.com/RCq6m.png)
Вы можете сослаться здесь и здесь
Надеюсь, что это поможет вам.: -)