Я работаю над набором видеоданных (разной длины) с двумя классами в задаче классификации.
Я использую предварительно подготовленную начальную модель v3 / Xception в кератах, которые принимают входной размер (Нет, 299 299, 3) или кадр размером 299x299 и выходы объекты размером (Нет, 8, 10, 2048) .
Я пытаюсь передать эти выходные функции в другая модель LSTM для классификации, но она дает мне ошибку input_shape
Используемое мной LSTM:
model = Sequential()
model.add(LSTM(512, input_shape=(None,2048)))
model.add(Dense(128, activation='relu'))
model.add(Dense(32, activation='relu'))
model.add(Dense(2, activation='softmax'))
Мои вопросы:
Должен ли я Нужно ли сгладить выходные данные модели Inception / Xception перед передачей их в модель LSTM?
Должна ли длина всех видео быть одинаковой перед установкой модели LSTM? Каковы преимущества / недостатки сохранения видео разной длины?