Question

Я использую следующий код для классификации видео с помощью LSTM.Элементы из каждого кадра извлекаются с использованием модели VGG16.Я также заинтересован в извлечении объектов в пространственной области.Из документации keras я понимаю, что CONVLSTM2D делает это.Но я не уверен, как использовать функции из vgg16 при использовании CONVLSTM2D.

frames=19
channels=3
rows=224
columns=224
classes=2


video = Input(shape=(frames,
                     rows,
                     columns, channels))
cnn_base = VGG16(input_shape=(rows,columns,channels),weights="imagenet",include_top=False, pooling = 'avg' )





encoded_frames = TimeDistributed(cnn_base)(video)
encoded_sequence = LSTM(256)(encoded_frames)
hidden_layer = Dense(output_dim=1024, activation="relu")(encoded_sequence)
outputs = Dense(output_dim=classes, activation="softmax")(hidden_layer)
model = Model([video], outputs)

Есть предложения по этому поводу?

SaTa · Answer 1 · 23 декабря 2018

ConvLSTM2D требует изображения как входы (высота, ширина, каналы).Таким образом, вы можете использовать выходные данные слоев в VGG до более поздней версии Flatten и плотных слоев, где выходные данные все еще имеют форму (высота, ширина, каналы) и передать их в ConvLSTM2D.

Модель VGG16 с CONVLSTM2D

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Модель VGG16 с CONVLSTM2D

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы