Как добавить дополнительные стоп-слова в дополнение к стандартным стоп-словам в wordcloud? - PullRequest
0 голосов
/ 01 января 2019

Я хотел бы добавить определенные слова в список стоп-слов по умолчанию, используемый в wordcloud.Это код, который я использовал.

all_text = " ".join(rev for rev in twitter_clean.text)
stop_words = ["https", "co", "RT"]
wordcloud = WordCloud(stopwords = stop_words, background_color="white").generate(all_text)
plt.imshow(wordcloud, interpolation='bilinear')
plt.axis("off")
plt.show()

Когда я использую эту пользовательскую переменную stop_words, слова вроде is, was все интерпретируются и отображаются как очень часто встречающиеся слова, но когда я использую список стоп-слов по умолчанию (нетаргумент stopwords), то есть так много других слов, которые отображаются как очень часто.Как добавить мою собственную переменную stop_words вместе со списком стоп-слов по умолчанию в мое облако слов.

Ответы [ 2 ]

0 голосов
/ 01 января 2019

Просто добавьте свой список во встроенный список STOPWORDS:

Из документации Wordcloud:

stopwords: набор строк или None.Слова, которые будут устранены.Если None, будет использоваться встроенный список STOPWORDS.

Таким образом, вы можете просто добавить STOPWORDS в свой пользовательский список и использовать его

all_text = " ".join(rev for rev in twitter_clean.text)
stop_words = ["https", "co", "RT"] + list(STOPWORDS)
wordcloud = WordCloud(stopwords = stop_words, background_color="white").generate(all_text)
plt.imshow(wordcloud, interpolation='bilinear')
plt.axis("off")
plt.show()
0 голосов
/ 01 января 2019

Просто получите список оригинальных стоп-слов с помощью from wordcloud import STOPWORDS и добавьте свой список.Как это [STOPWORDS.add(n) for n in custon_stop_words]

...