Дилемма удаления стоп-слова - PullRequest
3 голосов
/ 27 апреля 2020

Я столкнулся с дилеммой с функцией стоп-слов в NLTK. Я обрабатываю пользовательский контент с платформы социальных сетей, удаляя стоп-слова, используя NLTK. Однако дилемма состоит в том, что я хочу сохранить личные местоимения в тексте пользователей, которые важны для задачи классификации. К ним относятся такие слова, как «я», «вы», «мы» и т. Д. c.

К сожалению, функция стоп-слов также удаляет эти слова, и мне нужно, чтобы они присутствовали. Как я могу решить эту проблему?

1 Ответ

2 голосов
/ 28 апреля 2020
import nltk
from nltk.corpus import stopwords
stop_words= stopwords.words('english')
type(stop_words)
print(len(stop_words))

Если вы посмотрите на вывод, типом стоп-слов будет List. затем:

personal_pronouns= ['i', 'you', 'she', 'he', 'they'] # you can add another words for remove
for word in personal_pronouns:
    if word in stop_words:
        stop_words.remove(word)
        print(word+ '  Deleted')
print(len(stop_words))
...