Хотя gensim.parsing.preprocessing.STOPWORDS
предопределено для вашего удобства и может быть frozenset
, поэтому его нельзя добавить напрямую, вы можете легко создать больший набор, который включает в себя как эти слова, так и ваши дополнения. Например:
from gensim.parsing.preprocessing import STOPWORDS
my_stop_words = STOPWORDS.union(set(['mystopword1', 'mystopword2']))
Затем используйте новый, больший my_stop_words
в вашем последующем коде удаления стоп-слова. (Функция simple_preprocess()
gensim
не удаляет автоматически стоп-слова.)