Я реализую LSTM
с Keras
, чтобы предсказать правильный порядок слов. Мой набор данных состоит из предложений, каждое предложение состоит из переменного количества слов, а каждое слово состоит из одного и того же числа функций. Теперь я бы вычислял функцию потерь после каждого разбираемого предложения, но мне нужно иметь динамику c timesteps
для каждого предложения. Одним из решений может быть использование fit_generator()
, но в генераторе мне нужно знать, какое предложение должно возвращать правильное число timesteps
. Другим решением может быть использование pad_sequences()
для фиксированного числа, но когда я хочу предсказать правильную метку для слова, я должен вернуться к исходной длине предложения без пэда. (например, если я дополняю предложение от 6 до 20 слов, когда я предсказываю, скрытым состоянием будет список из 20 чисел, но мне нужно одно число для каждого исходного слова, поэтому 6 чисел).
Есть предложения? Заранее спасибо.