У меня есть numpy файл:
train_X.npy >> shape as :(90000, 8, 8, 2048) (90000 feature maps extracted from CNN of 90000 different images
train_Y.npy >> shape as : (,90000)
valid_X.npy >> shape as :(9000, 8, 8, 2048)
valid_Y.npy >> shape as :(,9000)
Я хочу обучить LSTM и, поскольку они являются извлеченными кадрами видео. Было бы разумно научиться использовать такие возможности, чтобы: я сохранил это так, чтобы 9 изображений, начиная с первого, были из одного и того же видео. Итак, 1-9 - это карта возможностей video1. 10-19 - это карта возможностей video2. Featuremap - это извлеченная функция из изображений с использованием начальной модели.
Итак, есть ли способ тренироваться таким образом? как взять (1-9, 8,8,2048) как 1 кусок данных? Я думаю, что было бы очень приятно сделать это? Спросите, нужна ли еще информация. Расскажу им все. Любая помощь, пожалуйста. связанный квест? Тензор потока: совместное обучение CNN + LSTM