Saurabh Verma 02 июля 2019 12

nltk word_tokenize возвращает упорядоченные слова?

Saurabh Verma / 02 июля 2019

Если я запускаю следующий код:

from nltk.tokenize import word_tokenize
text = "God is Great! I won a lottery."
print(word_tokenize(text))

Я получаю этот вывод: ['God', 'is', 'Great', '!', 'I', 'won', 'a', 'lottery', '.']

В этом случае токены в списке появляются в том же порядке, что и онинаходятся во входном предложении.

Однако всегда ли они находятся в том же порядке, что и во входном предложении?

...