Я генерирую некоторые последовательности из текста для lstm.У меня есть несколько строк, хранящихся в списке с именем lines
, и во всех этих строках есть три слова / токена.Я проверяю это, используя следующий код:
lines_split = list(map(lambda x: x.split(' '), lines))
for li in lines_split:
if len(li) != 3:
print(li)
, который не дает вывода, что означает, что все строки имеют 3 слова.
Затем я вызываю токенизатор следующим образом:
tokenizer = Tokenizer()
tokenizer.fit_on_texts(lines)
sequences = tokenizer.texts_to_sequences(lines)
И затем проверяю, все ли последовательности имеют размер 3
for l in sequences:
if len(l) != 3:
print(l)
Но я получаю кучу списковна выходе длина не равна 3.