У меня есть следующее выражение для удаления стоп-слов, других символов, их понижения и т. Д .:
stopword_set = set(stopwords.words("english"))
return " ".join([i for i in re.sub(r'[^a-zA-Z\s]', "", raw_text).lower().split() if i not in stopword_set])
Теперь я хочу добавить что-то к:
re.sub(r'[^a-zA-Z\s]', "", raw_text)
для удаления URLи заменить в пробел.Я попробовал несколько вещей, таких как это: (но не будет работать)
re.sub(r'[^a-zA-Z\s]["http\S+"]', "", raw_text)
Как добавить выражение?