Керас предварительной обработки Tokenizer производит последовательности неправильной длины - PullRequest
0 голосов
/ 04 июня 2019

Я генерирую некоторые последовательности из текста для lstm.У меня есть несколько строк, хранящихся в списке с именем lines, и во всех этих строках есть три слова / токена.Я проверяю это, используя следующий код:

lines_split = list(map(lambda x: x.split(' '), lines))
for li in lines_split:
    if len(li) != 3:
        print(li)

, который не дает вывода, что означает, что все строки имеют 3 слова.

Затем я вызываю токенизатор следующим образом:

tokenizer = Tokenizer()
tokenizer.fit_on_texts(lines)
sequences = tokenizer.texts_to_sequences(lines)

И затем проверяю, все ли последовательности имеют размер 3

for l in sequences:
    if len(l) != 3:
         print(l)

Но я получаю кучу списковна выходе длина не равна 3.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...