Если вам удастся получить плоский список стоп-слов для удаления из этого массива Numpy, вы можете создать регулярное выражение, которое соответствует всем стоп-словам, которые вы хотите удалить, затем используйте df.replace
.
stopwords = [
"a", "about", "and", "across", "after",
"afterwards", "in", "on", "as",
]
# Compile a regular expression that will match all the words in one sweep
stopword_re = re.compile("|".join(r"\b%s\b" % re.escape(word) for word in stopwords))
# Replace and reassign into the column
df["content"].replace(stopword_re, "", inplace=True)
Вы также можете добавить .replace(re.compile(r"\s+"), " ")
, чтобы свести получившиеся несколько пробелов в один пробел, если ваше приложение требует этого.