Почему вывод nltk стоп-слов не совпадает с выводом nltk word_tokenize - PullRequest
0 голосов
/ 07 мая 2020

В настоящее время я использую стоп-слова nltks и word_tokenize для обработки некоторого текста и обнаружил странное поведение.

sentence = "this is a test sentence which makes perfectly.sense. doesn't it? it won't. i'm annoyed"
tok_sentence = word_tokenize(sentence)
print(tok_sentence)
print(stopwords.words('english'))

печатаю следующее: '"-хар. Мы видим, что список запрещенных слов явно содержит слова, разделенные им. В то же время все слова в моем примере предложения включены в список запрещенных слов, как и его части. ("не" -> включено, "не" + "т" -> включено).

Однако функция word_tokenize разбивает слово "не" на "делает" и "не" . Таким образом, фильтрация стоп-слов после использования word_tokenize приведет к удалению «делает», но оставляет за собой «n't» ...

Мне было интересно, было ли это поведение намеренным. Если да, не мог бы кто-нибудь объяснить, почему?

...