Я следовал учебному пособию, чтобы создать модель Keras LSTM, которая имеет 80 временных шагов, просматривает 80 слов на временной шаг и прогнозирует 1 слово за раз. Теперь, когда я делаю другую модель LSTM с функциональным API, я не уверен, как моя другая модель работает без слоя Time Distributed. Я собираюсь перечислить первую модель LSTM ниже. Как получается, что следующий слой делает 80 отдельных прогнозов в разные моменты времени в одном пакете без слоя с распределением по времени?
model = keras.Sequential()
model.add(keras.layers.Embedding(15938, 150, input_length=80))
model.add(keras.layers.CuDNNLSTM(1024))
model.add( keras.layers.Dense(15938, activation='softmax') )
arrayOfArraysToTrainOnInputF = np.empty( [80, 80], dtype=int )
arrayOfArraysToTrainOnTargetF = np.empty( [80, 15938], dtype=int )
model.train_on_batch(
arrayOfArraysToTrainOnInputF,arrayOfArraysToTrainOnTargetF )